人工智能:数据集

  • 了解不同类型的数据集
  • 开始为您的项目规划预测结果的人工智能模型数据集

这些是本课的活动:

健康数据集

要创建一个能对事物进行分类的人工智能模型,第一步就是规划数据集。

健康数据集

右箭头

大量数据

不同的数据示例

正确的数据种类

右箭头

正确的行动或决定

人工智能需要数据

在为数据集收集示例时,请牢记以下几点。

数量

给模型提供的示例越多,它的表现就越好。为每个类提供至少 50 个示例。

天平

平衡

每一类的示例数量应大致相同,以避免偏重某一类。

文件夹

测试数据

单独保留一部分示例来测试训练好的模型。您需要一些未用于训练模型的示例来测试模型是否准确。
10-20% 的数据应该是测试数据。

多样性

您还希望包括各种各样的例子。

例如,您要创建一个人工智能模型来检测某人是否戴了口罩。您应该收集能反映各种实例的图像:

 

  • 不同类型和颜色的面具
  • 不同的人--性别、种族、年龄
  • 不同的背景--室内、室外、明亮、黑暗
  • 不同的头部角度
  • 头部在画面中的不同位置 - 近景、远景、左侧、右侧

如果您只使用戴着蓝色外科口罩的白人男性图像来训练您的模型,会怎样?当一个戴紫色口罩的有色人种女性使用您的模型时会发生什么?您认为会如何分类?您的模型是否会表现出色?

戴面具的非裔美国妇女

数据类型

数据集还必须是正确的数据类型。请确保选择适合您项目的数据类型!选项如下

excel 图标

数字

统计数据、人口信息、传感器数据

文本文件

文本

信息、社交媒体帖子、书籍、文章、网站

声波

声音

音乐、录音、声音

图像图标

图片

面孔、地点......任何东西!

人工智能给你力量

确定数据集的内容可为您提供巨大的力量!

小心使用 确定数据集的内容会给你带来 巨大的力量

小心使用 大量数据、 不同的数据和 正确类型的数据类型。

否则,您的人工智能模型将

  • 不准
  • 可能预测错误
  • 采取错误的行动。

花时间收集数据,建立一个健康的数据集,是成功模式的关键。

挥拳女孩

收集数据

有 3 种方法可以收集用于训练模型的数据。

关于传感器的更多信息

有许多低成本传感器可以连接到小型微控制器,为您的项目提供数据。下面是一些可以使用的传感器。

照相机

照相机

速度计

麦克风

光传感器

压力传感器

空气质量传感器

红外线温度计

接近传感器

活动:规划你的数据集

预计时间45 分钟

按照工作表中的说明列出大纲:

  • 您想收集哪些数据。
  • 您将从何处收集数据集的数据?是社区、传感器还是公共数据集?
  • 如何收集数据? 模型的类别或标签是什么?
  • 每班有多少例?每班至少 50 个。
打开工作表

最佳最佳做法: 鼓励学生思考日常生活中遇到的问题,是否有相关的数据集?你周围的物品中有传感器吗?这些传感器收集了哪些信息?你可以如何使用这些传感器(新的谷歌手机有一个温度传感器)?

向学生提出指导性问题: 你所在的城市有 "开放数据 "门户网站吗?举例说明: 纽约市加拿大埃德蒙顿.

导师提示由 AmeriCorps 提供支持。

风格化的 A,海军蓝的 AmeriCorps 徽标

反思

现在您已经有了一个数据集计划!当您开始收集数据集的示例时,请妥善保管和整理它们。

不要忘记保留一部分数据集用于测试!大约 10-20% 的数据应单独用于测试。

湖中倒影

关键术语回顾

  • 数据集- 用于教人工智能识别模式和预测事物的大型数据集

  • 传感器- 用于检测环境变化并在电子系统中监测该信息的设备

  • 微控制器- 单个集成芯片上的小型计算机,用于大型计算机和其他系统,如电器、车辆和机器人等

其他资源

硬件和传感器


有关传感器的全面列表,请参阅此 维基百科文章.

这段视频提供了有关我们推荐用于使用传感器的项目的微控制器硬件的详细信息。

本视频教程将向您展示如何访问 Kaggle 上的公共数据集。