- Lerne die verschiedenen Arten von Datensätzen kennen
- Beginne, den Datensatz für dein Projekt-AI-Modell zu planen, das etwas vorhersagen soll.
Das sind die Aktivitäten für diese Lektion:
GESUNDE DATENSÄTZE
Der erste Schritt bei der Erstellung eines KI-Modells, das etwas klassifizieren kann, ist die Planung des Datensatzes.
Gesunde Datensätze
Viele Daten
Verschiedene Beispiele für Daten
Die richtige Art von Daten
Korrekte Handlungen oder Entscheidungen
KI BRAUCHT DATEN
Behalte die folgenden Eigenschaften im Hinterkopf, wenn du Beispiele für deinen Datensatz sammelst.
MENGE
Je mehr Beispiele du dem Modell geben kannst, desto besser wird es abschneiden. Gib mindestens 50 Beispiele für jede Klasse an.
BALANCE
Du solltest für jede Klasse ungefähr die gleiche Anzahl von Beispielen haben, um zu verhindern, dass eine Klasse gegenüber der anderen bevorzugt wird.
TESTDATEN
Halte einen Teil deiner Beispiele separat, um das trainierte Modell zu testen. Du brauchst einige Beispiele, die nicht zum Trainieren des Modells verwendet wurden, um zu testen, ob dein Modell genau ist.
10-20% der Daten sollten Testdaten sein.
VIELFALT
Du möchtest auch verschiedene Beispiele einbeziehen.
Angenommen, du erstellst ein KI-Modell, um zu erkennen, ob jemand eine Gesichtsmaske trägt. Du solltest Bilder sammeln, die verschiedene Beispiele widerspiegeln:
- Verschiedene Arten und Farben von Masken
- Unterschiedliche Menschen - Geschlechter, Ethnien, Alter
- Verschiedene Hintergründe - drinnen, draußen, hell, dunkel
- Verschiedene Kopfneigungen
- Unterschiedliche Platzierung des Kopfes im Rahmen - nah, fern, links, rechts
Was wäre, wenn du dein Modell nur mit Bildern von weißen Männern mit blauen OP-Masken für deine Maskenklasse trainierst? Was passiert, wenn eine farbige Frau mit einer lila Maske dein Modell verwendet? Was glaubst du, wie sie klassifiziert werden wird? Wird dein Modell gut abschneiden oder nicht?
TYPEN VON DATEN
Ein Datensatz muss auch die richtige Art von Daten sein. Achte darauf, dass du den richtigen Datentyp für dein Projekt auswählst! Die Optionen sind:
Zahlen
statistische Daten, demografische Informationen, Sensordaten
Text
Nachrichten, Beiträge in sozialen Medien, Bücher, Artikel, Websites
Ton
Musik, Aufnahmen, Stimmen
Bilder
Gesichter, Orte ... alles!
KI GIBT DIR MACHT
Die Entscheidung, was in deinen Datensatz kommt, gibt dir immense Macht!
Achte darauf, was du verwendest, Die Entscheidung, was in deinen Datensatz kommt, gibt dir immense Macht!
Achte darauf, dass du viele Daten, verschiedene Daten und die richtige Art von Daten benutzt.
Andernfalls wird dein KI-Modell
- nicht sehr genau sein
- könnte schlechte Vorhersagen machen
- die falschen Maßnahmen ergreifen.
Für ein erfolgreiches Modell ist es wichtig, dass du dir die Zeit nimmst, Daten zu sammeln, die einen gesunden Datensatz ergeben.
DATENSAMMLUNG
Es gibt 3 Möglichkeiten, Daten zur Schulung deines Modells zu sammeln.
Wenn sich dein Projekt direkt auf deine Gemeinschaft konzentriert, könnte diese eine logische Quelle für die benötigten Daten sein. Stelle sicher, dass du die Erlaubnis hast, die Daten zu verwenden!
Wie werden in deiner Gemeinde Daten gesammelt?
- Fotos machen?
- Gemeindemitglieder bitten, dir Bilder zu geben?
- Geräusche aufnehmen?
- eine Umfrage verwenden?
- Gemeindemitglieder befragen?
Wenn du sehr viele Daten für dein Modell brauchst, solltest du dir öffentliche Datensätze ansehen. Es gibt viele Datensätze, die online verfügbar sind und dir schnell große Datenmengen liefern können.
Hier sind einige gute Datensatz-Seiten:
Überprüfe die Daten, um sicherzustellen, dass sie den oben genannten Kriterien für einen gesunden Datensatz entsprechen.
Höchstwahrscheinlich musst du auch einige Änderungen an den Daten vornehmen, um sie an deine Bedürfnisse anzupassen. Tools wie Teachable Machine benötigen zum Beispiel quadratische Bilder. Daher musst du die Bilder des Datensatzes möglicherweise so bearbeiten, dass sie die richtigen Maße für das Tool haben, das du verwendest.
Mikrocontroller sind kleine Computer auf einem einzigen integrierten Schaltkreis, die zur Steuerung von Geräten wie Automotoren und Haushaltsgeräten verwendet werden. Einige Mikrocontroller haben integrierte Sensoren. Viele haben die Möglichkeit, Sensoren an sie anzuschließen.
Jede der die drei empfohlenen Mikrocontroller unten hat ihre eigenen Besonderheiten und kann die Verwendung verschiedener Programmiersprachen erfordern, damit sie für dein Projekt funktioniert. Einige der Tools, wie App Inventor, haben Erweiterungen, die du hinzufügen kannst, um diese Geräte mit diesen Tools zu nutzen. Alle drei Geräte haben kürzlich KI-Fähigkeiten hinzugefügt, also solltest du ausprobieren, was möglich ist!
MEHR ÜBER SENSOREN
Es gibt viele kostengünstige Sensoren, die an kleine Mikrocontroller angeschlossen werden können und dein Projekt mit Daten versorgen. Hier sind einige Sensoren, die du verwenden kannst.
Kamera
Geschwindigkeitsmesser
Mikrofon
Lichtsensor
Drucksensor
Luftqualitätssensor
Infrarot-Thermometer
Näherungssensor
AKTIVITÄT: PLANE DEINEN DATENSATZ
Befolge die Anweisungen auf dem Arbeitsblatt, um eine Gliederung zu erstellen:
- Welche Daten du sammeln willst.
- Wo wirst du die Daten für deinen Datensatz sammeln? Werden es kommunale, sensorische oder öffentliche Datensätze sein?
- Wie wirst du die Daten sammeln? Wie werden die Klassen oder Labels für dein Modell aussehen?
- Wie viele Beispiele für jede Klasse? 50 pro Klasse sollten das Minimum sein.
Mentor Tipp
Beste Praktiken: Ermutige die Schüler/innen, über die Probleme nachzudenken, die sie in ihrem täglichen Leben haben. Gibt es Sensoren in den Gegenständen um dich herum? Welche Art von Informationen sammeln diese Sensoren? Wie könntest du sie nutzen (das neue Google-Handy hat einen Temperatursensor)?
Leitfragen, die du den Schülern stellen kannst: Gibt es in deiner Stadt ein "Open Data"-Portal? Beispiel: NYC und Edmonton, Kanada.
Mentorentipps werden durch die Unterstützung von AmeriCorps bereitgestellt.
REFLEXION
Du hast jetzt einen Plan für deinen Datensatz! Wenn du anfängst, die Beispiele für deinen Datensatz zu sammeln, bewahre sie sicher und gut organisiert auf.
Vergiss nicht, einen Teil des Datensatzes zum Testen aufzubewahren! Etwa 10-20% sollten für Tests aufbewahrt werden.
ÜBERPRÜFUNG DER SCHLÜSSELBEGRIFFE
Datensätze - große Datensätze, die verwendet werden, um KI zu lehren, Muster zu erkennen und etwas vorherzusagen
Sensor - ein Gerät, das Veränderungen in der Umgebung feststellt und zur Überwachung dieser Informationen in einem elektronischen System verwendet wird
Mikrocontroller - kleiner Computer auf einem einzigen integrierten Chip, der in größeren Computern und anderen Systemen wie Geräten, Fahrzeugen und Robotern eingesetzt wird
ZUSÄTZLICHE RESSOURCEN
Hardware und Sensoren
Eine umfassende Liste von Sensoren findest du in diesem Wikipedia-Artikel.
Dieses Video gibt gute Informationen über die Mikrocontroller-Hardware, die wir für Projekte mit Sensoren empfehlen.
Dieses Video-Tutorial zeigt dir, wie du auf einen öffentlichen Datensatz bei Kaggle zugreifen kannst.