AI:數據集

  • 瞭解不同類型的數據集
  • 開始為您的專案 AI 模型規劃數據集,該模型將預測某些內容

以下是本課的活動:

健康的數據集

創建可以對某些事物進行分類的 AI 模型的第一步是規劃數據集。

健康的數據集

向右箭頭

大量 數據

不同的數據範例

正確類型的數據

向右箭頭

正確的操作或決定

AI 需要數據

在為數據集收集範例時,請記住以下品質。

數量

您可以為模型提供的範例越多,它的性能就越好。為每個類提供至少 50 個範例。

平衡秤

平衡

每個類的示例數量應該大致相同,以防止一個類對另一個類產生偏見。

資料夾

測試數據

將示例的一部分分開,以測試經過訓練的模型。您將需要一些未用於訓練模型的範例來測試您的模型是否準確。
10-20%的數據應該是測試數據。

多樣性

您還希望包含各種範例。

例如,假設您正在創建一個 AI 模型來檢測某人是否戴著口罩。您應該收集反映各種範例的影像:

 

  • 不同類型和顏色的口罩
  • 不同的人——性別、種族、年齡
  • 不同的背景——室內、室外、淺色、深色
  • 不同的頭部角度
  • 頭部在框架中的不同位置 - 近、遠、左側、右側

如果您只使用戴著藍色外科口罩的白人男性的圖像來訓練模型進行面具課程,那會怎樣?當戴著紫色面具的有色人種女性使用您的模型時會發生什麼?你認為它將如何被分類?您的模型是否表現良好?

戴著面具的非裔美國婦女

數據類型

數據集還必須是正確的數據類型。確保選擇適合您項目的數據類型!選項有:

Excel 圖示

數位

統計數據、人口統計資訊、感測器數據

文本文檔

發簡訊

消息、社交媒體帖子、書籍、文章、網站

聲波

聲音

音樂、錄音、人聲

圖像圖示

圖像

面孔、地點......什麼!

AI 賦予你力量

確定資料集中的內容會為您提供 巨大的力量

小心使用 確定哪些內容進入您的數據集會為您提供 巨大的力量

請注意使用 大量 數據、 不同的 數據和 正確類型的 數據。

否則,您的 AI 模型將

  • 不是很準確
  • 可能會做出錯誤的預測
  • 採取錯誤的行動。

花時間收集數據,使數據集變得健康,對於成功的模型至關重要。

拳頭在空中的女孩

收集數據

有 3 種方法可以收集用於訓練模型的數據。

有關感測器的更多資訊

有許多低成本的感測器可以連接到小型微控制器併為您的專案提供數據。以下是一些可以使用的感測器。

照相機

照相機

速度計

麥克風

光感測器

壓力感測器

空氣品質感測器

紅外測溫儀

接近感測器

活動:規劃數據集

預計時間:45 分鐘

按照工作表中的說明進行概述:

  • 您要收集哪些資料。
  • 您將在何處收集資料集的數據。是社區、感測器還是公共數據集?
  • 您將如何收集資料? 模型的類或標籤是什麼?
  • 每個類有多少個範例?每節課至少應為50分。
打開工作表

最佳實踐鼓勵學生思考他們在日常生活中遇到的問題,是否有與此相關的數據集?您周圍的物品中是否有任何感測器?這些感測器收集什麼樣的資訊?你怎麼能使用這些(新的谷歌手機有一個溫度感測器)?

要向學生提出的指導性問題:您的城市是否有「開放數據」入口網站?示例:加拿大紐約市埃德蒙頓

導師提示由 AmeriCorps 提供支援。

程式化的 A,海軍藍的 AmeriCorps 標誌

反射

現在,您已經有了數據集的計劃!當您開始收集數據集的範例時,請確保它們安全且組織良好。

別忘了保留一部分數據集以供測試!大約10-20%應分開進行測試。

湖中的倒影

關鍵術語的審查

  • 數據集 – 用於教 AI 識別模式和預測某些事物的大量數據集

  • 感測器 – 一種檢測環境變化並用於監控電子系統內該信息的設備

  • 微控制器 – 單個集成晶片上的小型計算機,用於大型計算機和其他系統,如電器、車輛和機器人

其他資源

硬體和感測器


有關感測器的完整清單,請查看此維琪百科 文章

該視頻提供了有關我們推薦用於使用感測器的專案的微控制器硬體的良好資訊。

本視頻教程向您展示如何在 Kaggle 上存取公共資料集。