AI: 資料集

  • 瞭解不同類型的資料集
  • 開始為您的專案規劃資料集 將會預測某事的 AI 模型

以下是本課的活動:

健康數據集

要建立一個可以將某些東西分類的 AI 模型,第一步就是規劃資料集。

健康資料集

right arrow

大量資料

不同的資料範例

正確的資料種類

right arrow

正確的行動或決定

AI 需要資料

為資料集收集範例時,請牢記下列特質。

數量

您提供的範例越多,模型的表現就越好。每個類別至少提供 50 個範例。

balanced scales

平衡

您應該為每個類別準備大約相同數量的範例,以避免偏重某個類別。

folders

測試資料

保留一部分獨立的範例來測試訓練過的模型。您需要一些未用於訓練模型的範例來測試您的模型是否準確。
10-20% 的資料應該是測試資料。

多樣性

您還要包括多樣化的範例。

舉例來說,假設您正在建立一個人工智慧模型,用來偵測某人是否配戴口罩。您應蒐集能反映各種情境的圖像:

 

  • 不同種類和顏色的口罩
  • 不同的人 - 性別、種族、年齡
  • 不同的背景 - 室內、室外、淺色、深色
  • 不同的頭部角度
  • 頭部在畫面中的不同位置 - 近景、遠景、左側、右側

若你僅使用配戴藍色外科口罩的白人男性圖像來訓練模型,將口罩類別標記為藍色,那麼當一位配戴紫色口罩的有色人種女性使用該模型時,你認為系統會如何判別?模型表現會良好嗎?

African American woman with mask

資料類型

資料集也必須是正確的資料類型。請務必選擇適合您專案的資料類型!選項有

excel icon

數字

統計資料、人口資訊、感測器資料

text document

正文

訊息、社交媒體文章、書籍、文章、網站

sound wave

聲音

音樂、錄音、聲音

image icons

圖像

面孔、地方......任何東西!

ai 賦予您力量

決定資料集的內容可讓您巨大的力量!

謹慎使用 決定哪些資料會進入您的資料集,讓您擁有 無比的權力

小心使用 大量資料、 不同的資料,以及 正確的資料。

否則,您的 AI 模型將

  • 不太准
  • 可能會做出糟糕的預測
  • 採取錯誤的行動。

花時間收集資料以建立健康的資料集,對成功的模型至關重要。

girl with fist in the air

收集資料

有三種方式可以收集資料來訓練您的模型。

更多關於感測器

有許多低成本感測器可以連接小型微控制器,並為您的專案提供資料。以下是一些可以使用的感測器。

camera

攝影機

速度計

麥克風

光傳感器

壓力感測器

空氣品質感測器

紅外線溫度計

近接感應器

活動:規劃您的資料集

預計時間45 分鐘

按照工作表中的指示勾畫:

  • 您想要收集哪些資料。
  • 您將從何處收集資料集?是社區、感測器還是公共資料集?
  • 您將如何收集資料? 您的模型的類別或標籤是什麼?
  • 每班有多少個範例?每班至少 50 個。
打開工作表

最佳最佳做法: 鼓勵學生思考日常生活中遇到的問題,是否有相關的資料集?周圍的物品中是否有感應器?這些感應器收集的是什麼資訊?您可以如何使用這些(新的 google 手機有溫度感應器)?

詢問學生的指導性問題: 您的城市有「開放資料」入口網站嗎?範例: 紐約市加拿大埃德蒙頓.

導師提示由 AmeriCorps 提供支援。

stylized A, AmeriCorps logo in navy

反射

您現在已經有了資料集的計劃!當您開始為您的資料集收集範例時,請妥善保管和整理這些範例。

別忘了保留一部分資料集作測試之用!約 10-20% 應該單獨保留用於測試。

reflection in lake

關鍵術語的審查

  • 資料集- 用於教導人工智能識別模式和預測某事的大型資料集

  • 感測器- 偵測環境變化的裝置,用於監控電子系統中的資訊

  • 微控制器- 單一整合晶片上的小型電腦,用於大型電腦及其他系統,如家電、車輛及機械人。

其他資源

硬體與感測器


如需全面的感測器清單,請參閱此 維基百科文章.

此視訊提供我們建議使用感測器的專案所需的微控制器硬體的詳細資訊。

本視訊教學教導您如何存取 Kaggle 上的公開資料集。