- Узнайте о различных типах наборов данных
- Начните планировать набор данных для вашего проекта Модель искусственного интеллекта, которая будет что-то предсказывать
Вот задания для этого урока:
ЗДОРОВЫЕ НАБОРЫ ДАННЫХ
Первым шагом в создании модели ИИ, способной классифицировать что-либо, является планирование набора данных.
Корректный набор данных

Много данных
Различные примеры данных
Правильные данные

Правильные действия или решения
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ НУЖДАЕТСЯ В ДАННЫХ
Собирая примеры для своего набора данных, помните о следующих качествах.

КОЛИЧЕСТВО
Чем больше примеров вы сможете предоставить модели, тем лучше она будет работать. Приведите не менее 50 примеров для каждого класса.

БАЛАНС
У вас должно быть примерно одинаковое количество примеров для каждого класса, чтобы избежать предвзятого отношения к одному из них.

ТЕСТОВЫЕ ДАННЫЕ
Отделите часть примеров для тестирования обученной модели. Вам понадобятся примеры, которые не использовались для обучения модели, чтобы проверить, насколько точна ваша модель.
10-20 % данных должны быть тестовыми.
ДИВЕРСИТИ
Вы также хотите включить разнообразные примеры.
Например, вы создаете модель искусственного интеллекта для определения того, надета на человеке маска или нет. Вам необходимо собрать изображения, отражающие различные примеры:
- Различные типы и цвета масок
- Разные люди - полы, национальности, возраст
- Различные фоны - в помещении, на улице, светлые, темные
- Различные углы наклона головы
- Различное расположение головы в кадре - близко, далеко, слева, справа

Что, если вы обучили свою модель только на изображениях белых мужчин в синих хирургических масках для класса масок? Что произойдет, если цветная женщина в фиолетовой маске воспользуется вашей моделью? Как вы думаете, как она будет классифицирована? Будет ли ваша модель работать хорошо или нет?


ВИДЫ ДАННЫХ
Набор данных также должен быть правильного типа. Убедитесь, что вы выбрали тип данных, подходящий для вашего проекта! Варианты:

Номера
статистические данные, демографическая информация, данные датчиков

Текст
сообщения, посты в социальных сетях, книги, статьи, веб-сайты

Звук
музыка, записи, голоса

Изображения
лица, места... что угодно!
AI ДАЕТ ВАМ СИЛУ
Определение того, что попадет в ваш набор данных, дает вам огромную власть!
Будьте осторожны в использовании Определение того, что попадет в ваш набор данных, дает вам огромную власть!
Будьте осторожны, используйте много данных, различные данных и правильный тип данных.
В противном случае ваша модель искусственного интеллекта будет
- не быть очень точным
- может делать плохие прогнозы
- предпринять неправильные действия.
Для успешной модели очень важно уделить время сбору данных, которые позволят создать здоровый массив данных.

СБОР ДАННЫХ
Существует 3 способа сбора данных для обучения модели.
Если ваш проект направлен непосредственно на ваше сообщество, то сообщество может стать логичным местом для предоставления нужных вам данных. Убедитесь, что у вас есть разрешение на использование данных!
Как собирать данные в вашем сообществе?
- фотографировать?
- попросить членов сообщества дать вам фотографии?
- записывать звуки?
- использовать опрос?
- опрашивать членов сообщества?
Если вам нужно много данных для вашей модели, обратите внимание на публичные наборы данных. В Интернете есть множество наборов данных, которые позволят вам быстро получить большой объем данных.
Вот несколько хороших сайтов с наборами данных:
Обязательно просмотрите данные, чтобы убедиться, что они соответствуют приведенным выше критериям "здорового" набора данных.
Скорее всего, вам также придется внести некоторые изменения в данные, чтобы они соответствовали вашим потребностям. Например, такие инструменты, как Teachable Machine, требуют квадратных изображений, поэтому вам, возможно, придется отредактировать изображения набора данных, чтобы они соответствовали параметрам используемого инструмента.
Микроконтроллеры это небольшие компьютеры на одной интегральной схеме, которые используются для управления такими устройствами, как автомобильные двигатели и бытовая техника. Некоторые микроконтроллеры имеют встроенные датчики. Многие из них имеют возможность подключения датчиков.
Каждый из три рекомендуемых ниже микроконтроллера Они имеют свои особенности и могут потребовать использования различных языков программирования, чтобы заставить их работать на ваш проект. Некоторые из инструментов, например App Inventor, имеют расширения, которые можно добавить, чтобы использовать эти устройства с этими инструментами. Во всех трех устройствах недавно были добавлены возможности искусственного интеллекта, так что вам стоит проверить, что можно сделать!
ПОДРОБНЕЕ О ДАТЧИКАХ
Существует множество недорогих датчиков, которые могут подключаться к небольшим микроконтроллерам и предоставлять данные для вашего проекта. Вот некоторые датчики, которые можно использовать.

Камера

Спидометр

Микрофон

Датчик освещенности

Датчик давления

Датчик качества воздуха

Инфракрасный термометр

Датчик приближения
ДЕЯТЕЛЬНОСТЬ: ПЛАНИРОВАНИЕ НАБОРА ДАННЫХ
Следуйте инструкциям в рабочем листе, чтобы составить план:
- Какие данные вы хотите собрать.
- Где вы будете собирать данные для своего набора данных. Будут ли это общественные, сенсорные или публичные базы данных?
- Как вы будете собирать данные? Какие классы или метки будут использоваться в вашей модели?
- Сколько примеров для каждого класса? Минимум 50 примеров для каждого класса.
Совет для менторов
Лучшие Практика: Побудите студентов подумать о проблемах, с которыми они сталкиваются в повседневной жизни, есть ли набор данных, относящийся к этому? Есть ли датчики в окружающих вас предметах? Какую информацию собирают эти датчики? Как вы могли бы их использовать (в новом телефоне Google есть датчик температуры)?
Наводящие вопросы для студентов: Есть ли в вашем городе портал "Открытые данные"? Пример: NYC и Эдмонтон, Канада.
Советы для менторов предоставлены при поддержке AmeriCorps.

РЕФЛЕКСИЯ
Теперь у вас есть план создания набора данных! Когда вы начнете собирать примеры для своего набора данных, храните их в безопасности и хорошо организуйте.
Не забудьте оставить часть набора данных для тестирования! Примерно 10-20% следует оставить для тестирования.

ОБЗОР ОСНОВНЫХ ТЕРМИНОВ
Массивы данных - большие наборы данных, которые используются для обучения ИИ распознавать закономерности и предсказывать что-либо
Датчик - устройство, которое обнаруживает изменения в окружающей среде и используется для отслеживания этой информации в электронной системе
Микроконтроллер - небольшой компьютер на одном интегральном чипе, используемый в больших компьютерах и других системах, таких как бытовая техника, транспортные средства и роботы
ДОПОЛНИТЕЛЬНЫЕ РЕСУРСЫ
Оборудование и датчики
Полный список датчиков можно найти в этой статья в Википедии.
В этом видео представлена хорошая информация об аппаратном обеспечении микроконтроллеров, которое мы рекомендуем для проектов с использованием датчиков.
В этом видеоуроке показано, как получить доступ к публичному набору данных на Kaggle.