- Aprenderás sobre los distintos tipos de conjuntos de datos
- Empezarás a planificar el conjunto de datos para tu proyecto Modelo de IA que predecirá algo
Estas son las actividades para esta lección:
CONJUNTOS DE DATOS DE CALIDAD
El primer paso para crear un modelo de IA que pueda clasificar algo es planificar el conjunto de datos.
Conjuntos de datos de calidad

Muchos datos
Diferentes ejemplos de datos
El tipo adecuado de datos

Acciones o decisiones correctas
LA INTELIGENCIA ARTIFICIAL NECESITA DATOS
Tenn en cuenta las siguientes cualidades a la hora de recopilar ejemplos para tu conjunto de datos.

CANTIDAD
Cuantos más ejemplos proporciones al modelo, mejor funcionará. Proporciona al menos 50 ejemplos para cada clase.

BALANCE
Debe tener más o menos el mismo número de ejemplos para cada clase, con el fin de evitar el sesgo de una sobre la otra.

DATOS DE PRUEBA
Guarda una parte de los ejemplos para probar el modelo entrenado. Necesitarás algunos ejemplos que no se utilizaron para entrenar el modelo para probar si tu modelo es preciso.
El 10-20% de los datos deberían ser datos de prueba.
DIVERSIDAD
También debes incluir ejemplos variados.
Por ejemplo, supongamos que está creando un modelo de IA para detectar si alguien lleva una mascarilla o no. Deberías reunir imágenes que reflejen ejemplos variados:
- Diferentes tipos y colores de máscaras
- Diferentes personas: géneros, etnias, edades
- Diferentes fondos: interior, exterior, claro, oscuro
- Diferentes ángulos de la cabeza
- Diferente colocación de la cabeza en el encuadre: cerca, lejos, a la izquierda, a la derecha

¿Qué pasaría si sólo entrenaras tu modelo utilizando imágenes de hombres blancos con mascarillas quirúrgicas azules para tu clase de mascarillas? ¿Qué ocurre cuando una mujer de color con una mascarilla morada utiliza tu modelo? ¿Cómo crees que se clasificará? ¿Su modelo funcionará bien o no?


TIPOS DE DATOS
Un conjunto de datos también debe ser el tipo de datos adecuado. Asegúrate de elegir el tipo de datos adecuado para tu proyecto. Las opciones son:

Números
datos estadísticos, información demográfica, datos de sensores

Texto
mensajes, publicaciones en redes sociales, libros, artículos, sitios web

Sonido
música, grabaciones, voces

Imágenes
caras, lugares... ¡lo que sea!
LA AI TE DA PODER
¡Determinar lo que entra en tu conjunto de datos te da un poder inmenso!
Ten cuidado al utilizar determinar lo que entra en tu conjunto de datos te da un poder inmenso.
Asegúrate de utilizar muchos datos, diferentes datos, y el tipo adecuado de datos.
De lo contrario, tu modelo de IA
- no será muy preciso
- podría hacer malas predicciones
- tomará las decisones equivocadas.
Tomarse el tiempo necesario para recopilar los datos que conformarán un conjunto de datos de calidad es fundamental para el éxito de un modelo.

RECOPILACIÓN DE DATOS
Hay tres formas de recopilar datos para entrenar el modelo.
Si tu proyecto se centra directamente en tu comunidad, ésta puede ser el lugar lógico para suministrarte los datos que necesitas. Asegúrate de que te autorizan a utilizar los datos.
¿Cómo recopilarás datos en tu comunidad?
- ¿tomarás fotos?
- ¿Pedirás a los miembros de la comunidad que te den fotos?
- ¿grabarás sonidos?
- ¿utilizarás una encuesta?
- ¿entrevistarás a miembros de la comunidad?
Si vas a necesitar muchos datos para tu modelo, puedes recurrir a conjuntos de datos públicos. Hay muchos conjuntos de datos disponibles en línea que pueden proporcionarte grandes cantidades de datos rápidamente.
Aquí hay algunos buenos sitios de conjuntos de datos:
Asegúrate de revisar los datos para comprobar que se ajustan a los criterios anteriores para un conjunto de datos de calidad.
Lo más probable es que también tengas que hacer algunos cambios en los datos para adaptarlos a tus necesidades. Por ejemplo, herramientas como Teachable Machine requieren imágenes cuadradas, por lo que es posible que tengas que editar las imágenes del conjunto de datos para que se ajusten a las dimensiones correctas de la herramienta que estés utilizando.
Los microcontroladores son pequeños ordenadores en un único circuito integrado que se utilizan para controlar dispositivos como motores de automóviles y electrodomésticos. Algunos microcontroladores incorporan sensores. Muchos tienen opciones para conectarles sensores.
Cada uno de los tres microcontroladores recomendados a continuación tienen sus propias características particulares y podría ser necesario utilizar distintos lenguajes de programación para que funcionen en tu proyecto. Algunas de las herramientas, como App Inventor, tienen extensiones que puedes añadir para poder utilizar estos dispositivos con dichas herramientas. Los tres dispositivos han añadido recientemente la capacidad de IA, ¡así que te interesa comprobar qué es posible!
MÁS SOBRE SENSORES
Hay muchos sensores de bajo coste que pueden conectarse a pequeños microcontroladores y proporcionar datos a tu proyecto. He aquí algunos sensores que podrían utilizarse.

Cámara

Velocímetro

Micrófono

Sensor de luz

Sensor de presión

Sensor de calidad del aire

Termómetro de infrarrojos

Sensor de proximidad
ACTIVIDAD: PLANIFICA TU CONJUNTO DE DATOS
Sigue las instrucciones de la hoja de ejercicios para hacer el esquema:
- Qué datos deseas recopilar.
- Dónde recopilarás los datos para tu conjunto de datos. Serán conjuntos de datos comunitarios, de sensores o públicos?
- ¿Cómo recopilarás los datos? ¿Cuáles serán las clases o etiquetas de tu modelo?
- ¿Cuántos ejemplos por clase? 50 por clase debería ser el mínimo.
Consejo de los mentores
Buenas prácticas: Anima a estudiantes a pensar en los problemas que tienen en su día a día, ¿hay algún conjunto de datos relacionado con eso? ¿Hay sensores en los objetos que te rodean? ¿Qué tipo de información recogen esos sensores? ¿Cómo podrías utilizarlos (el nuevo teléfono de google tiene un sensor de temperatura)?
Preguntas orientativas para estudiantes: ¿Dispone tu ciudad de un portal de "Datos abiertos"? Ejemplo: NYC y Edmonton, Canadá.
Los consejos de los mentores se proporcionan gracias al apoyo de AmeriCorps.

REFLEXIÓN
Ya tienes un plan para tu conjunto de datos. Cuando empieces a reunir los ejemplos para tu conjunto de datos, manténlos seguros y bien organizados.
No olvides conservar una parte del conjunto de datos para las pruebas. Alrededor de un 10-20% debe mantenerse separado para las pruebas.

REVISIÓN DE TÉRMINOS CLAVE
Conjuntos de datos - grandes conjuntos de datos que se utilizan para enseñar a la IA a reconocer patrones y predecir algo
Sensor - dispositivo que detecta cambios en el entorno y se utiliza para controlar esa información dentro de un sistema electrónico.
Microcontrolador - pequeño ordenador en un único chip integrado, utilizado en ordenadores más grandes y otros sistemas como electrodomésticos, vehículos y robots.
RECURSOS ADICIONALES
Hardware y sensores
Para obtener una lista completa de sensores, consulta este artículo de Wikipedia.
Este video ofrece buena información sobre el hardware de microcontrolador que recomendamos para los proyectos que utilizan sensores.
Este tutorial de video muestra cómo acceder a un conjunto de datos públicos en Kaggle.