- Apprendre à connaître les différents types d'ensembles de données
- Commencez à planifier l'ensemble de données pour votre projet Modèle d'IA qui prédit quelque chose
Voici les activités de cette leçon :
ENSEMBLES DE DONNÉES SAINES
La première étape de la création d'un modèle d'IA capable de classifier quelque chose consiste à planifier l'ensemble de données.
Ensembles de données saines

Beaucoup de données
Différents exemples de données
Le bon type de données

Actions ou décisions correctes
L'IA A BESOIN DE DONNÉES
Gardez à l'esprit les qualités suivantes lors de la collecte d'exemples pour votre ensemble de données.

QUANTITÉ
Plus vous donnez d'exemples au modèle, plus il sera performant. Fournissez au moins 50 exemples pour chaque classe.

ÉQUILIBRE
Vous devriez avoir à peu près le même nombre d'exemples pour chaque classe, afin d'éviter tout biais en faveur de l'une ou l'autre.

DONNÉES DE TEST
Conservez une partie de vos exemples séparément pour tester le modèle formé. Vous aurez besoin d'exemples qui n'ont pas été utilisés pour former le modèle afin de tester la précision de votre modèle.
10 à 20 % des données doivent être des données de test.
DIVERSITÉ
Vous devez également inclure des exemples variés.
Par exemple, supposons que vous créez un modèle d'IA pour détecter si une personne porte un masque facial ou non. Vous devez rassembler des images qui reflètent des exemples variés :
- Différents types et couleurs de masques
- Différentes personnes - sexes, ethnies, âges
- Différents arrière-plans - intérieur, extérieur, clair, sombre
- Différents angles de tête
- Différents placements de la tête dans le cadre - de près, de loin, sur le côté gauche, sur le côté droit

Que se passe-t-il si vous n'entraînez votre modèle qu'à l'aide d'images d'hommes blancs portant des masques chirurgicaux bleus pour votre classe de masques ? Que se passe-t-il lorsqu'une femme de couleur portant un masque violet utilise votre modèle ? Comment pensez-vous qu'elle sera classée ? Votre modèle sera-t-il performant ou non ?


TYPES DE DONNÉES
Un ensemble de données doit également être le bon type de données. Veillez à choisir le type de données qui convient à votre projet ! Les options sont les suivantes :

Chiffres
données statistiques, informations démographiques, données de capteurs

Texte
messages, messages sur les médias sociaux, livres, articles, sites web

Son
musique, enregistrements, voix

Images
des visages, des lieux... n'importe quoi !
L'IA VOUS DONNE DU POUVOIR
Déterminer ce qui entre dans votre ensemble de données vous donne un immense pouvoir!
Attention à l'utilisation Déterminer ce qui entre dans votre jeu de données vous donne un pouvoir immense!
Veillez à utiliser beaucoup de données, différentes différentes, et le bon type de données.
Sinon, votre modèle d'IA
- ne pas être très précis
- pourrait faire de mauvaises prédictions
- prendre les mauvaises mesures.
Prendre le temps de collecter les données qui permettront d'obtenir un ensemble de données sain est essentiel à la réussite d'un modèle.

COLLECTE DE DONNÉES
Il existe trois façons de collecter des données pour l'entraînement de votre modèle.
Si votre projet est directement axé sur votre communauté, celle-ci pourrait être l'endroit logique pour vous fournir les données dont vous avez besoin. Assurez-vous d'avoir l'autorisation d'utiliser ces données !
Comment les données seront-elles collectées dans votre communauté ?
- prendre des photos ?
- demander aux membres de la communauté de vous fournir des photos ?
- enregistrer des sons ?
- utiliser une enquête ?
- interroger des membres de la communauté ?
Si vous avez besoin d'un grand nombre de données pour votre modèle, vous pouvez vous tourner vers des ensembles de données publiques. De nombreux ensembles de données sont disponibles en ligne et peuvent vous fournir rapidement de grandes quantités de données.
Voici quelques bons sites de données :
Veillez à examiner les données pour vous assurer qu'elles répondent aux critères susmentionnés d'un ensemble de données sain.
Vous devrez probablement aussi modifier les données pour les adapter à vos besoins. Par exemple, des outils tels que Teachable Machine nécessitent des images carrées. Vous devrez donc peut-être modifier les images de l'ensemble de données pour qu'elles correspondent aux dimensions correctes de l'outil que vous utilisez.
Microcontrôleurs Les microcontrôleurs sont de petits ordinateurs sur un circuit intégré unique qui sont utilisés pour contrôler des dispositifs tels que les moteurs automobiles et les appareils ménagers. Certains microcontrôleurs sont dotés de capteurs intégrés. Beaucoup ont des options pour y connecter des capteurs.
Chacun des les trois microcontrôleurs recommandés ci-dessous possède ses propres caractéristiques et peut nécessiter l'utilisation de différents langages de programmation pour fonctionner dans le cadre de votre projet. Certains outils, comme App Inventor, ont des extensions que vous pouvez ajouter pour pouvoir utiliser ces appareils avec ces outils. Les trois appareils ont récemment été dotés d'une capacité d'IA, vous avez donc tout intérêt à vérifier les possibilités qui s'offrent à vous !
PLUS D'INFORMATIONS SUR LES CAPTEURS
Il existe de nombreux capteurs à faible coût qui peuvent être connectés à de petits microcontrôleurs et fournir des données à votre projet. Voici quelques capteurs qui pourraient être utilisés.

Appareil photo

Compteur de vitesse

Microphone

Capteur de lumière

Capteur de pression

Capteur de qualité de l'air

Thermomètre infrarouge

Capteur de proximité
ACTIVITÉ : PLANIFIER VOTRE ENSEMBLE DE DONNÉES
Suivez les instructions de la feuille de travail pour tracer les grandes lignes :
- Les données que vous souhaitez collecter.
- Où allez-vous collecter les données pour votre dataset? S'agira-t-il de données communautaires, de capteurs ou de données publiques ?
- Comment allez-vous collecter les données ? Quelles seront les classes ou les labels de votre modèle ?
- Combien d'exemples par classe ? 50 par classe devrait être un minimum.
Conseil du mentor
Meilleures pratiques : Encouragez les élèves à réfléchir aux problèmes qu'ils rencontrent dans leur vie quotidienne. Existe-t-il un ensemble de données qui s'y rapporte ? Y a-t-il des capteurs dans les objets qui vous entourent ? Quel type d'informations ces capteurs recueillent-ils ? Comment pourriez-vous les utiliser (le nouveau téléphone de Google est équipé d'un capteur de température) ?
Questions directrices à poser aux élèves : Votre ville dispose-t-elle d'un portail "Open Data" ? Exemple : NYC et Edmonton, Canada.
Les conseils des mentors sont fournis grâce au soutien de l'AmeriCorps.

RÉFLEXION
Vous avez maintenant un plan pour votre ensemble de données ! Lorsque vous commencez à rassembler les exemples pour votre ensemble de données, gardez-les en sécurité et bien organisés.
N'oubliez pas de conserver une partie de l'ensemble de données pour les tests ! Environ 10 à 20 % des données doivent être conservées séparément pour les tests.

RÉVISION DES TERMES CLÉS
Ensembles de données - grands ensembles de données utilisés pour apprendre à l'IA à reconnaître des modèles et à prédire quelque chose
Capteur - Dispositif qui détecte les changements dans l'environnement et qui est utilisé pour contrôler cette information dans un système électronique.
Microcontrôleur - petit ordinateur sur une seule puce intégrée, utilisé dans des ordinateurs plus grands et d'autres systèmes tels que les appareils ménagers, les véhicules et les robots.
RESSOURCES SUPPLÉMENTAIRES
Matériel et capteurs
Pour une liste complète des capteurs, consultez cet article de Wikipédia.
Cette vidéo donne de bonnes informations sur le matériel microcontrôleur que nous recommandons pour les projets utilisant des capteurs.
Ce tutoriel vidéo vous montre comment accéder à un jeu de données public sur Kaggle.