IA : ensembles de données

  • Apprendre à connaître les différents types d'ensembles de données
  • Commencez à planifier l'ensemble de données pour votre projet Modèle d'IA qui prédit quelque chose

Voici les activités de cette leçon :

ENSEMBLES DE DONNÉES SAINES

La première étape de la création d'un modèle d'IA capable de classifier quelque chose consiste à planifier l'ensemble de données.

Ensembles de données saines

flèche droite

Beaucoup de données

Différents exemples de données

Le bon type de données

flèche droite

Actions ou décisions correctes

L'IA A BESOIN DE DONNÉES

Gardez à l'esprit les qualités suivantes lors de la collecte d'exemples pour votre ensemble de données.

QUANTITÉ

Plus vous donnez d'exemples au modèle, plus il sera performant. Fournissez au moins 50 exemples pour chaque classe.

des balances équilibrées

ÉQUILIBRE

Vous devriez avoir à peu près le même nombre d'exemples pour chaque classe, afin d'éviter tout biais en faveur de l'une ou l'autre.

dossiers

DONNÉES DE TEST

Conservez une partie de vos exemples séparément pour tester le modèle formé. Vous aurez besoin d'exemples qui n'ont pas été utilisés pour former le modèle afin de tester la précision de votre modèle.
10 à 20 % des données doivent être des données de test.

DIVERSITÉ

Vous devez également inclure des exemples variés.

Par exemple, supposons que vous créez un modèle d'IA pour détecter si une personne porte un masque facial ou non. Vous devez rassembler des images qui reflètent des exemples variés :

 

  • Différents types et couleurs de masques
  • Différentes personnes - sexes, ethnies, âges
  • Différents arrière-plans - intérieur, extérieur, clair, sombre
  • Différents angles de tête
  • Différents placements de la tête dans le cadre - de près, de loin, sur le côté gauche, sur le côté droit

Que se passe-t-il si vous n'entraînez votre modèle qu'à l'aide d'images d'hommes blancs portant des masques chirurgicaux bleus pour votre classe de masques ? Que se passe-t-il lorsqu'une femme de couleur portant un masque violet utilise votre modèle ? Comment pensez-vous qu'elle sera classée ? Votre modèle sera-t-il performant ou non ?

Femme afro-américaine avec masque

TYPES DE DONNÉES

Un ensemble de données doit également être le bon type de données. Veillez à choisir le type de données qui convient à votre projet ! Les options sont les suivantes :

icône excel

Chiffres

données statistiques, informations démographiques, données de capteurs

document texte

Texte

messages, messages sur les médias sociaux, livres, articles, sites web

onde sonore

Son

musique, enregistrements, voix

icônes d'image

Images

des visages, des lieux... n'importe quoi !

L'IA VOUS DONNE DU POUVOIR

Déterminer ce qui entre dans votre ensemble de données vous donne un immense pouvoir!

Attention à l'utilisation Déterminer ce qui entre dans votre jeu de données vous donne un pouvoir immense!

Veillez à utiliser beaucoup de données, différentes différentes, et le bon type de données.

Sinon, votre modèle d'IA

  • ne pas être très précis
  • pourrait faire de mauvaises prédictions
  • prendre les mauvaises mesures.

Prendre le temps de collecter les données qui permettront d'obtenir un ensemble de données sain est essentiel à la réussite d'un modèle.

fille avec le poing en l'air

COLLECTE DE DONNÉES

Il existe trois façons de collecter des données pour l'entraînement de votre modèle.

PLUS D'INFORMATIONS SUR LES CAPTEURS

Il existe de nombreux capteurs à faible coût qui peuvent être connectés à de petits microcontrôleurs et fournir des données à votre projet. Voici quelques capteurs qui pourraient être utilisés.

caméra

Appareil photo

Compteur de vitesse

Microphone

Capteur de lumière

Capteur de pression

Capteur de qualité de l'air

Thermomètre infrarouge

Capteur de proximité

ACTIVITÉ : PLANIFIER VOTRE ENSEMBLE DE DONNÉES

Durée estimée : 45 minutes

Suivez les instructions de la feuille de travail pour tracer les grandes lignes :

  • Les données que vous souhaitez collecter.
  • Où allez-vous collecter les données pour votre dataset? S'agira-t-il de données communautaires, de capteurs ou de données publiques ?
  • Comment allez-vous collecter les données ? Quelles seront les classes ou les labels de votre modèle ?
  • Combien d'exemples par classe ? 50 par classe devrait être un minimum.
Ouvrir la feuille de calcul

Meilleures pratiques : Encouragez les élèves à réfléchir aux problèmes qu'ils rencontrent dans leur vie quotidienne. Existe-t-il un ensemble de données qui s'y rapporte ? Y a-t-il des capteurs dans les objets qui vous entourent ? Quel type d'informations ces capteurs recueillent-ils ? Comment pourriez-vous les utiliser (le nouveau téléphone de Google est équipé d'un capteur de température) ?

Questions directrices à poser aux élèves : Votre ville dispose-t-elle d'un portail "Open Data" ? Exemple : NYC et Edmonton, Canada.

Les conseils des mentors sont fournis grâce au soutien de l'AmeriCorps.

A stylisé, logo AmeriCorps en bleu marine

RÉFLEXION

Vous avez maintenant un plan pour votre ensemble de données ! Lorsque vous commencez à rassembler les exemples pour votre ensemble de données, gardez-les en sécurité et bien organisés.

N'oubliez pas de conserver une partie de l'ensemble de données pour les tests ! Environ 10 à 20 % des données doivent être conservées séparément pour les tests.

reflet dans le lac

RÉVISION DES TERMES CLÉS

  • Ensembles de données - grands ensembles de données utilisés pour apprendre à l'IA à reconnaître des modèles et à prédire quelque chose

  • Capteur - Dispositif qui détecte les changements dans l'environnement et qui est utilisé pour contrôler cette information dans un système électronique.

  • Microcontrôleur - petit ordinateur sur une seule puce intégrée, utilisé dans des ordinateurs plus grands et d'autres systèmes tels que les appareils ménagers, les véhicules et les robots.

RESSOURCES SUPPLÉMENTAIRES

Matériel et capteurs


Pour une liste complète des capteurs, consultez cet article de Wikipédia.

Cette vidéo donne de bonnes informations sur le matériel microcontrôleur que nous recommandons pour les projets utilisant des capteurs.

Ce tutoriel vidéo vous montre comment accéder à un jeu de données public sur Kaggle.