- Conozca los distintos tipos de conjuntos de datos
- Empieza a planificar el conjunto de datos para tu proyecto Modelo de IA que predecirá algo
Éstas son las actividades para esta lección:
CONJUNTOS DE DATOS SANOS
El primer paso para crear un modelo de IA que pueda clasificar algo es planificar el conjunto de datos.
Conjuntos de datos sanos

Muchos datos
Diferentes ejemplos de datos
El tipo adecuado de datos

Acciones o decisiones correctas
LA INTELIGENCIA ARTIFICIAL NECESITA DATOS
Ten en cuenta las siguientes cualidades a la hora de recopilar ejemplos para su conjunto de datos.

CANTIDAD
Cuantos más ejemplos proporciones al modelo, mejor funcionará. Proporciona al menos 50 ejemplos para cada clase.

BALANCE
Debe tener más o menos el mismo número de ejemplos para cada clase, con el fin de evitar el sesgo de una sobre la otra.

DATOS DE PRUEBA
Guarda una parte de los ejemplos para probar el modelo entrenado. Necesitarás algunos ejemplos que no se utilizaron para entrenar el modelo para probar si el modelo es preciso.
El 10-20% de los datos deberían ser datos de prueba.
DIVERSIDAD
También debe incluir ejemplos variados.
Por ejemplo, supongamos que estás creando un modelo de IA para detectar si alguien lleva una mascarilla o no. Deberías reunir imágenes que reflejen ejemplos variados:
- Diferentes tipos y colores de máscaras
- Diferentes personas: géneros, etnias, edades
- Diferentes fondos: interior, exterior, claro, oscuro
- Diferentes ángulos de la cabeza
- Diferente colocación de la cabeza en el encuadre: cerca, lejos, a la izquierda, a la derecha

¿Qué pasaría si sólo entrenaras tu modelo utilizando imágenes de hombres blancos con mascarillas quirúrgicas azules para tu clase de mascarillas? ¿Qué ocurre cuando una mujer de color con una mascarilla morada utiliza tu modelo? ¿Cómo crees que se clasificará? ¿Tu modelo funcionará bien o no?


TIPOS DE DATOS
Un conjunto de datos también debe ser el tipo de datos adecuado. Asegúrese de elegir el tipo de datos adecuado para su proyecto. Las opciones son:

Números
datos estadísticos, información demográfica, datos de sensores

Texto
mensajes, publicaciones en redes sociales, libros, artículos, sitios web

Sonido
música, grabaciones, voces

Imágenes
caras, lugares... ¡lo que sea!
LA AI TE DA PODER
¡Determinar lo que entra en su conjunto de datos te da un poder inmenso!
Ten cuidado al utilizar Determinar, puesto que lo que entra en tu conjunto de datos te da un poder inmenso.
Ten cuidado de utilizar muchos de datos, diferentes datos, y el tipo adecuado de datos.
De lo contrario, su modelo de IA
- no ser muy preciso
- podría hacer malas predicciones
- tomar las medidas equivocadas.
Tomarse el tiempo necesario para recopilar los datos que conformarán un conjunto de datos saludable es fundamental para el éxito de un modelo.

RECOPILACIÓN DE DATOS
Hay tres formas de recopilar datos para entrenar el modelo.
Si su proyecto se centra directamente en su comunidad, ésta puede ser el lugar lógico para suministrarle los datos que necesita. Asegúrese de que le autorizan a utilizar los datos.
¿Cómo recopilarán datos en su comunidad?
- ¿hacer fotos?
- ¿Pedir a los miembros de la comunidad que te den fotos?
- ¿Grabar sonidos?
- ¿Utilizar una encuesta?
- ¿entrevistar a miembros de la comunidad?
Si vas a necesitar muchos datos para tu modelo, puedes recurrir a conjuntos de datos públicos. Hay muchos conjuntos de datos disponibles en línea que pueden proporcionarle grandes cantidades de datos rápidamente.
Aquí hay algunos buenos sitios de conjuntos de datos:
Asegúrate de revisar los datos para comprobar que se ajustan a los criterios anteriores para un conjunto de datos saludable.
Lo más probable es que también tengas que hacer algunos cambios en los datos para adaptarlos a tus necesidades. Por ejemplo, herramientas como Teachable Machine requieren imágenes cuadradas, por lo que es posible que tengas que editar las imágenes del conjunto de datos para que se ajusten a las dimensiones correctas de la herramienta que estés utilizando.
Microcontroladores son pequeños ordenadores en un único circuito integrado que se utilizan para controlar dispositivos como motores de automóviles y electrodomésticos. Algunos microcontroladores incorporan sensores. Muchos tienen opciones para conectarles sensores.
Cada uno de los tres microcontroladores recomendados a continuación tiene sus propias características particulares, y podría ser necesario utilizar distintos lenguajes de programación para que funcionen en su proyecto. Algunas de las herramientas, como App Inventor, tienen extensiones que puedes añadir para poder utilizar estos dispositivos con dichas herramientas. Los tres dispositivos han añadido recientemente la capacidad de IA, ¡así que te interesa comprobar qué es posible!
MÁS SOBRE SENSORES
Hay muchos sensores de bajo costo que pueden conectarse a pequeños microcontroladores y proporcionar datos a tu proyecto. He aquí algunos sensores que podrían utilizarse.

Cámara

Velocímetro

Micrófono

Sensor de luz

Sensor de presión

Sensor de calidad del aire

Termómetro infrarrojo

Sensor de proximidad
ACTIVIDAD: PLANIFIQUE SU CONJUNTO DE DATOS
Sigue las instrucciones de la hoja de ejercicios para hacer el esquema:
- Qué datos deseas recopilar.
- Dónde recopilará los datos para su conjunto de datos. Serán conjuntos de datos comunitarios, de sensores o públicos?
- ¿Cómo recopilará los datos? ¿Cuáles serán las clases o etiquetas de tu modelo?
- ¿Cuántos ejemplos por clase? 50 por clase debería ser el mínimo.
Consejo del tutor
Mejores prácticas: Anima a las alumnas a pensar en los problemas que tienen en su día a día, ¿hay algún conjunto de datos relacionado con eso? ¿Hay sensores en los objetos que les rodean? ¿Qué tipo de información recogen estos sensores? ¿Cómo podrías utilizarlos (el nuevo teléfono de google tiene un sensor de temperatura)?
Preguntas orientativas para las alumnas:¿Dispone su ciudad de un portal de "Datos abiertos"? Ejemplo: NYC y Edmonton, Canadá.
Los consejos de los mentores se proporcionan gracias al apoyo de AmeriCorps.

REFLEXIÓN
Ya tienes un plan para tu conjunto de datos. Cuando empieces a reunir los ejemplos para tu conjunto de datos, manténlos seguros y bien organizados.
No olvides conservar una parte del conjunto de datos para las pruebas. Alrededor de un 10-20% debe mantenerse separado para las pruebas.

REVISIÓN DE TÉRMINOS CLAVE
Conjuntos de datos - grandes conjuntos de datos que se utilizan para enseñar a la IA a reconocer patrones y predecir algo
Sensor - dispositivo que detecta cambios en el entorno y se utiliza para controlar esa información dentro de un sistema electrónico.
Microcontrolador - pequeño ordenador en un único chip integrado, utilizado en ordenadores más grandes y otros sistemas como electrodomésticos, vehículos y robots.
RECURSOS ADICIONALES
Hardware y sensores
Para obtener una lista completa de sensores, consulta este artículo de Wikipedia.
Este video ofrece buena información sobre el hardware de microcontroladores que recomendamos para los proyectos que utilizan sensores.
Este tutorial de video te muestra cómo acceder a un conjunto de datos público en Kaggle.