人工智能:数据集

  • 了解不同类型的数据集
  • 开始为您的项目规划预测结果的人工智能模型数据集

这些是本课的活动:

健康数据集

要创建一个能对事物进行分类的人工智能模型,第一步就是规划数据集。

健康数据集

right arrow

大量数据

不同的数据示例

正确的数据种类

right arrow

正确的行动或决定

人工智能需要数据

在为数据集收集示例时,请牢记以下几点。

数量

给模型提供的示例越多,它的表现就越好。为每个类提供至少 50 个示例。

balanced scales

平衡

每一类的示例数量应大致相同,以避免偏重某一类。

folders

测试数据

单独保留一部分示例来测试训练好的模型。您需要一些未用于训练模型的示例来测试模型是否准确。
10-20% 的数据应该是测试数据。

多样性

您还希望包括各种各样的例子。

例如,假设你正在创建一个AI模型来检测某人是否佩戴口罩。你应该收集反映各种情况的图像:

 

  • 不同类型和颜色的面具
  • 不同的人--性别、种族、年龄
  • 不同的背景--室内、室外、明亮、黑暗
  • 不同的头部角度
  • 头部在画面中的不同位置 - 近景、远景、左侧、右侧

如果你的模型仅用佩戴蓝色外科口罩的白人男性图像进行训练,那么当一位佩戴紫色口罩的有色人种女性使用该模型时会发生什么?你认为她会被如何分类?你的模型表现会良好吗?

African American woman with mask

数据类型

数据集还必须是正确的数据类型。请确保选择适合您项目的数据类型!选项如下

excel icon

数字

统计数据、人口信息、传感器数据

text document

文本

信息、社交媒体帖子、书籍、文章、网站

sound wave

声音

音乐、录音、声音

image icons

图片

面孔、地点......任何东西!

人工智能给你力量

确定数据集的内容可为您提供巨大的力量!

小心使用 确定数据集的内容会给你带来 巨大的力量

小心使用 大量数据、 不同的数据和 正确类型的数据类型。

否则,您的人工智能模型将

  • 不准
  • 可能预测错误
  • 采取错误的行动。

花时间收集数据,建立一个健康的数据集,是成功模式的关键。

girl with fist in the air

收集数据

有 3 种方法可以收集用于训练模型的数据。

关于传感器的更多信息

有许多低成本传感器可以连接到小型微控制器,为您的项目提供数据。下面是一些可以使用的传感器。

camera

照相机

速度计

麦克风

光传感器

压力传感器

空气质量传感器

红外线温度计

接近传感器

活动:规划你的数据集

预计时间45 分钟

按照工作表中的说明列出大纲:

  • 您想收集哪些数据。
  • 您将从何处收集数据集的数据?是社区、传感器还是公共数据集?
  • 如何收集数据? 模型的类别或标签是什么?
  • 每班有多少例?每班至少 50 个。
打开工作表

最佳最佳做法: 鼓励学生思考日常生活中遇到的问题,是否有相关的数据集?你周围的物品中有传感器吗?这些传感器收集了哪些信息?你可以如何使用这些传感器(新的谷歌手机有一个温度传感器)?

向学生提出指导性问题: 你所在的城市有 "开放数据 "门户网站吗?举例说明: 纽约市加拿大埃德蒙顿.

导师提示由 AmeriCorps 提供支持。

stylized A, AmeriCorps logo in navy

反思

现在您已经有了一个数据集计划!当您开始收集数据集的示例时,请妥善保管和整理它们。

不要忘记保留一部分数据集用于测试!大约 10-20% 的数据应单独用于测试。

reflection in lake

关键术语回顾

  • 数据集- 用于教人工智能识别模式和预测事物的大型数据集

  • 传感器- 用于检测环境变化并在电子系统中监测该信息的设备

  • 微控制器- 单个集成芯片上的小型计算机,用于大型计算机和其他系统,如电器、车辆和机器人等

其他资源

硬件和传感器


有关传感器的全面列表,请参阅此 维基百科文章.

这段视频提供了有关我们推荐用于使用传感器的项目的微控制器硬件的详细信息。

本视频教程将向您展示如何访问 Kaggle 上的公共数据集。