ИИ: Наборы данных

  • Узнайте о различных типах наборов данных
  • Начните планировать набор данных для вашего проекта Модель искусственного интеллекта, которая будет что-то предсказывать

ЗДОРОВЫЕ НАБОРЫ ДАННЫХ

Первым шагом в создании модели ИИ, способной классифицировать что-либо, является планирование набора данных.

Корректный набор данных

стрелка вправо

Много данных

Различные примеры данных

Правильные данные

стрелка вправо

Правильные действия или решения

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ НУЖДАЕТСЯ В ДАННЫХ

Собирая примеры для своего набора данных, помните о следующих качествах.

КОЛИЧЕСТВО

Чем больше примеров вы сможете предоставить модели, тем лучше она будет работать. Приведите не менее 50 примеров для каждого класса.

сбалансированные весы

БАЛАНС

У вас должно быть примерно одинаковое количество примеров для каждого класса, чтобы избежать предвзятого отношения к одному из них.

папки

ТЕСТОВЫЕ ДАННЫЕ

Отделите часть примеров для тестирования обученной модели. Вам понадобятся примеры, которые не использовались для обучения модели, чтобы проверить, насколько точна ваша модель.
10-20 % данных должны быть тестовыми.

ДИВЕРСИТИ

Вы также хотите включить разнообразные примеры.

Например, вы создаете модель искусственного интеллекта для определения того, надета на человеке маска или нет. Вам необходимо собрать изображения, отражающие различные примеры:

 

  • Различные типы и цвета масок
  • Разные люди - полы, национальности, возраст
  • Различные фоны - в помещении, на улице, светлые, темные
  • Различные углы наклона головы
  • Различное расположение головы в кадре - близко, далеко, слева, справа

Что, если вы обучили свою модель только на изображениях белых мужчин в синих хирургических масках для класса масок? Что произойдет, если цветная женщина в фиолетовой маске воспользуется вашей моделью? Как вы думаете, как она будет классифицирована? Будет ли ваша модель работать хорошо или нет?

Афроамериканская женщина в маске

ВИДЫ ДАННЫХ

Набор данных также должен быть правильного типа. Убедитесь, что вы выбрали тип данных, подходящий для вашего проекта! Варианты:

значок excel

Номера

статистические данные, демографическая информация, данные датчиков

текстовый документ

Текст

сообщения, посты в социальных сетях, книги, статьи, веб-сайты

звуковая волна

Звук

музыка, записи, голоса

значки изображений

Изображения

лица, места... что угодно!

AI ДАЕТ ВАМ СИЛУ

Определение того, что попадет в ваш набор данных, дает вам огромную власть!

Будьте осторожны в использовании Определение того, что попадет в ваш набор данных, дает вам огромную власть!

Будьте осторожны, используйте много данных, различные данных и правильный тип данных.

В противном случае ваша модель искусственного интеллекта будет

  • не быть очень точным
  • может делать плохие прогнозы
  • предпринять неправильные действия.

Для успешной модели очень важно уделить время сбору данных, которые позволят создать здоровый массив данных.

Девушка с поднятым вверх кулаком

СБОР ДАННЫХ

Существует 3 способа сбора данных для обучения модели.

ПОДРОБНЕЕ О ДАТЧИКАХ

Существует множество недорогих датчиков, которые могут подключаться к небольшим микроконтроллерам и предоставлять данные для вашего проекта. Вот некоторые датчики, которые можно использовать.

камера

Камера

Спидометр

Микрофон

Датчик освещенности

Датчик давления

Датчик качества воздуха

Инфракрасный термометр

Датчик приближения

ДЕЯТЕЛЬНОСТЬ: ПЛАНИРОВАНИЕ НАБОРА ДАННЫХ

Расчетное время: 45 минут

Следуйте инструкциям в рабочем листе, чтобы составить план:

  • Какие данные вы хотите собрать.
  • Где вы будете собирать данные для своего набора данных. Будут ли это общественные, сенсорные или публичные базы данных?
  • Как вы будете собирать данные? Какие классы или метки будут использоваться в вашей модели?
  • Сколько примеров для каждого класса? Минимум 50 примеров для каждого класса.
Открыть рабочий лист

Лучшие Практика: Побудите студентов подумать о проблемах, с которыми они сталкиваются в повседневной жизни, есть ли набор данных, относящийся к этому? Есть ли датчики в окружающих вас предметах? Какую информацию собирают эти датчики? Как вы могли бы их использовать (в новом телефоне Google есть датчик температуры)?

Наводящие вопросы для студентов: Есть ли в вашем городе портал "Открытые данные"? Пример: NYC и Эдмонтон, Канада.

Советы для менторов предоставлены при поддержке AmeriCorps.

стилизованная буква A, логотип AmeriCorps в морском цвете

РЕФЛЕКСИЯ

Теперь у вас есть план создания набора данных! Когда вы начнете собирать примеры для своего набора данных, храните их в безопасности и хорошо организуйте.

Не забудьте оставить часть набора данных для тестирования! Примерно 10-20% следует оставить для тестирования.

отражение в озере

ОБЗОР ОСНОВНЫХ ТЕРМИНОВ

  • Массивы данных - большие наборы данных, которые используются для обучения ИИ распознавать закономерности и предсказывать что-либо

  • Датчик - устройство, которое обнаруживает изменения в окружающей среде и используется для отслеживания этой информации в электронной системе

  • Микроконтроллер - небольшой компьютер на одном интегральном чипе, используемый в больших компьютерах и других системах, таких как бытовая техника, транспортные средства и роботы

ДОПОЛНИТЕЛЬНЫЕ РЕСУРСЫ

Оборудование и датчики


Полный список датчиков можно найти в этой статья в Википедии.

В этом видео представлена хорошая информация об аппаратном обеспечении микроконтроллеров, которое мы рекомендуем для проектов с использованием датчиков.

В этом видеоуроке показано, как получить доступ к публичному набору данных на Kaggle.