AI:データセット

  • さまざまなタイプのデータセットについて学ぶ
  • 何かを予測するプロジェクトのAIモデルのデータセットを計画し始める。

健康データセット

何かを分類できるAIモデルを作る最初のステップは、データセットを計画することだ。

健康なデータセット

右矢印

多くのデータ

データのさまざまな例

適切なデータ

右矢印

正しい行動や決断

AIはデータを必要としている

データセットの例を集めるときには、次のような特質に留意すること。

数量

モデルに与える例が多ければ多いほど、より良い結果が得られます。各クラスに少なくとも50の例を与えましょう。

バランス・スケール

バランス

どちらか一方に偏るのを防ぐため、各クラスに同じ数の例を用意する必要がある。

フォルダー

テストデータ

学習したモデルをテストするために、サンプルの一部を別にしておきます。モデルが正確かどうかをテストするために、モデルの訓練に使われなかったいくつかの例が必要です。
データの10-20%はテストデータであるべきです。

多様性

また様々な例を挙げたい。

例えば、フェイスマスクを着用しているかどうかを検出するAIモデルを作成するとします。様々な例を反映した画像を集める必要がある:

 

  • マスクの種類と色
  • さまざまな人々 - 性別、人種、年齢
  • さまざまな背景 - 屋内、屋外、明るい、暗い
  • ヘッド角度の違い
  • フレーム内での頭の位置の違い - 近い、遠い、左側、右側

マスクのクラスに、青い手術用マスクをつけた白人男性の画像だけを使用してモデルをトレーニングしたらどうなるでしょうか?紫色のマスクをつけた有色人種の女性があなたのモデルを使ったらどうなりますか?どのように分類されると思いますか?あなたのモデルはうまく機能するでしょうか、それともしないでしょうか?

マスクをしたアフリカ系アメリカ人女性

データの種類

データセットはまた、正しい種類のデータでなければなりません。あなたのプロジェクトに適したデータタイプを選んでください!選択肢は以下の通り:

エクセルアイコン

数字

統計データ、人口統計情報、センサーデータ

テキスト文書

Text

メッセージ、ソーシャルメディアへの投稿、書籍、記事、ウェブサイト

音波

Sound

音楽、録音、声

イメージアイコン

画像

顔、場所......何でも!

AIはあなたに力を与える

何がデータセットに含まれるかを決定することで、次のことが可能になる。絶大な力!

データセットに何を入れるかを決めることは、 非常に大きな力を与えてくれる!

を使うよう注意すること。 たくさんののデータを使用するよう注意すること、 異なるデータ、そして 適切なデータの種類。

そうでなければ、AIモデルは

  • あまり正確ではない
  • 予想が外れることがある
  • 間違った行動を取る。

健全なデータセットを作るためのデータ収集に時間をかけることは、モデルを成功させるために不可欠である。

拳を振り上げる少女

データ収集

モデルをトレーニングするためのデータを収集するには、3つの方法があります。

センサーの詳細

小型マイコンに接続し、プロジェクトにデータを提供できる低価格のセンサーはたくさんある。ここでは、使用可能なセンサーをいくつか紹介しよう。

camera

Camera

スピードメーター

マイク

光センサー

圧力センサー

空気品質センサー

赤外線温度計

Proximity sensor

アクティビティ:データセットを計画する

所要時間45分

ワークシートの指示に従ってアウトラインを描く:

  • 収集したいデータ
  • データセットのデータをどこで収集するか。コミュニティか、センサーか、公共データセットか。
  • どのようにデータを収集するのか? モデルのクラスやラベルは何にしますか?
  • 各クラスに何例ありますか?各クラス50例が最低です。
ワークシートを開く

ベストプラクティスベストプラクティス 生徒たちに、日常生活で抱えている問題について考えるよう促し、それに関連するデータセットはないか?身の回りのものにセンサーはついているだろうか?そのセンサーはどんな情報を集めているのか?新しいグーグル携帯には温度センサーがついています)。

生徒への質問 あなたの都市には「オープンデータ」ポータルがありますか?例 ニューヨーク市および カナダのエドモントン.

メンターTipsは、AmeriCorpsから提供されたものです。

様式化されたA、ネイビーでAmeriCorpsのロゴ

振り返り

これでデータセットの計画ができた!データセットの例を集め始めたら、それらを安全に保管し、よく整理してください。

データセットの一部をテスト用に取っておくことをお忘れなく!10-20%程度はテスト用に残しておくこと。

湖に映る

主な用語のおさらい

  • データセット- AIにパターンを認識させ、何かを予測させるために使用される大規模なデータセット。

  • センサー- 環境の変化を検出し、電子システム内でその情報を監視するために使用される装置。

  • マイクロコントローラー- 単一集積チップ上の小型コンピュータで、家電、自動車、ロボットなどの大型コンピュータやその他のシステムに使用される。

追加リソース

ハードウェアとセンサー


センサーの包括的なリストについては、以下をご覧ください。 ウィキペディアの記事.

このビデオでは、センサーを使用するプロジェクトにお勧めのマイクロコントローラーのハードウェアについて詳しく説明しています。

このビデオチュートリアルでは、Kaggleで公開されているデータセットにアクセスする方法を紹介します。