ИИ: Наборы данных

  • Узнайте о различных типах наборов данных
  • Начните планировать набор данных для вашего проекта Модель искусственного интеллекта, которая будет что-то предсказывать

ЗДОРОВЫЕ НАБОРЫ ДАННЫХ

Первым шагом в создании модели ИИ, способной классифицировать что-либо, является планирование набора данных.

Корректный набор данных

right arrow

Много данных

Различные примеры данных

Правильные данные

right arrow

Правильные действия или решения

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ НУЖДАЕТСЯ В ДАННЫХ

Собирая примеры для своего набора данных, помните о следующих качествах.

КОЛИЧЕСТВО

Чем больше примеров вы сможете предоставить модели, тем лучше она будет работать. Приведите не менее 50 примеров для каждого класса.

balanced scales

БАЛАНС

У вас должно быть примерно одинаковое количество примеров для каждого класса, чтобы избежать предвзятого отношения к одному из них.

folders

ТЕСТОВЫЕ ДАННЫЕ

Отделите часть примеров для тестирования обученной модели. Вам понадобятся примеры, которые не использовались для обучения модели, чтобы проверить, насколько точна ваша модель.
10-20 % данных должны быть тестовыми.

ДИВЕРСИТИ

Вы также хотите включить разнообразные примеры.

Например, вы создаете модель искусственного интеллекта для определения того, надета на человеке маска или нет. Вам необходимо собрать изображения, отражающие различные примеры:

 

  • Различные типы и цвета масок
  • Разные люди - полы, национальности, возраст
  • Различные фоны - в помещении, на улице, светлые, темные
  • Различные углы наклона головы
  • Различное расположение головы в кадре - близко, далеко, слева, справа

Что, если вы обучили свою модель только на изображениях белых мужчин в синих хирургических масках для класса масок? Что произойдет, если цветная женщина в фиолетовой маске воспользуется вашей моделью? Как вы думаете, как она будет классифицирована? Будет ли ваша модель работать хорошо или нет?

African American woman with mask

ВИДЫ ДАННЫХ

Набор данных также должен быть правильного типа. Убедитесь, что вы выбрали тип данных, подходящий для вашего проекта! Варианты:

excel icon

Номера

статистические данные, демографическая информация, данные датчиков

text document

Текст

сообщения, посты в социальных сетях, книги, статьи, веб-сайты

sound wave

Звук

музыка, записи, голоса

image icons

Изображения

лица, места... что угодно!

AI ДАЕТ ВАМ СИЛУ

Определение того, что попадет в ваш набор данных, дает вам огромную власть!

Будьте осторожны в использовании Определение того, что попадет в ваш набор данных, дает вам огромную власть!

Будьте осторожны, используйте много данных, различные данных и правильный тип данных.

В противном случае ваша модель искусственного интеллекта будет

  • не быть очень точным
  • может делать плохие прогнозы
  • предпринять неправильные действия.

Для успешной модели очень важно уделить время сбору данных, которые позволят создать здоровый массив данных.

girl with fist in the air

СБОР ДАННЫХ

Существует 3 способа сбора данных для обучения модели.

ПОДРОБНЕЕ О ДАТЧИКАХ

Существует множество недорогих датчиков, которые могут подключаться к небольшим микроконтроллерам и предоставлять данные для вашего проекта. Вот некоторые датчики, которые можно использовать.

camera

Камера

Спидометр

Микрофон

Датчик освещенности

Датчик давления

Датчик качества воздуха

Инфракрасный термометр

Датчик приближения

ДЕЯТЕЛЬНОСТЬ: ПЛАНИРОВАНИЕ НАБОРА ДАННЫХ

Расчетное время: 45 минут

Следуйте инструкциям в рабочем листе, чтобы составить план:

  • Какие данные вы хотите собрать.
  • Где вы будете собирать данные для своего набора данных. Будут ли это общественные, сенсорные или публичные базы данных?
  • Как вы будете собирать данные? Какие классы или метки будут использоваться в вашей модели?
  • Сколько примеров для каждого класса? Минимум 50 примеров для каждого класса.
Открыть рабочий лист

Лучшие Практика: Побудите студентов подумать о проблемах, с которыми они сталкиваются в повседневной жизни, есть ли набор данных, относящийся к этому? Есть ли датчики в окружающих вас предметах? Какую информацию собирают эти датчики? Как вы могли бы их использовать (в новом телефоне Google есть датчик температуры)?

Наводящие вопросы для студентов: Есть ли в вашем городе портал "Открытые данные"? Пример: NYC и Эдмонтон, Канада.

Советы для менторов предоставлены при поддержке AmeriCorps.

stylized A, AmeriCorps logo in navy

РАЗМЫШЛЕНИЕ

Теперь у вас есть план создания набора данных! Когда вы начнете собирать примеры для своего набора данных, храните их в безопасности и хорошо организуйте.

Не забудьте оставить часть набора данных для тестирования! Примерно 10-20% следует оставить для тестирования.

reflection in lake

ОБЗОР ОСНОВНЫХ ТЕРМИНОВ

  • Массивы данных - большие наборы данных, которые используются для обучения ИИ распознавать закономерности и предсказывать что-либо

  • Датчик - устройство, которое обнаруживает изменения в окружающей среде и используется для отслеживания этой информации в электронной системе

  • Микроконтроллер - небольшой компьютер на одном интегральном чипе, используемый в больших компьютерах и других системах, таких как бытовая техника, транспортные средства и роботы

ДОПОЛНИТЕЛЬНЫЕ РЕСУРСЫ

Оборудование и датчики


Полный список датчиков можно найти в этой статья в Википедии.

В этом видео представлена хорошая информация об аппаратном обеспечении микроконтроллеров, которое мы рекомендуем для проектов с использованием датчиков.

В этом видеоуроке показано, как получить доступ к публичному набору данных на Kaggle.