AI: 데이터 세트

  • 다양한 유형의 데이터 집합에 대해 알아보기
  • 무언가를 예측할 프로젝트 AI 모델의 데이터 집합을 계획하기 시작하세요.

이 단원의 활동은 다음과 같습니다:

건강한 데이터 세트

무언가를 분류할 수 있는 AI 모델을 만드는 첫 번째 단계는 데이터 집합을 계획하는 것입니다.

건강한 데이터 세트

오른쪽 화살표

많은 데이터

데이터의 다양한 예

올바른 종류의 데이터

오른쪽 화살표

올바른 조치 또는 결정

AI에는 데이터가 필요합니다

데이터 집합의 예시를 수집할 때 다음 특성을 염두에 두세요.

수량

모델에 더 많은 예제를 제공할수록 더 나은 성능을 발휘할 수 있습니다. 각 수업에 최소 50개 이상의 예제를 제공하세요.

균형 잡힌 저울

균형

한 클래스에 편중되는 것을 방지하기 위해 각 클래스마다 동일한 수의 예제를 제공해야 합니다.

폴더

테스트 데이터

학습된 모델을 테스트하기 위해 예제의 일부를 따로 보관하세요. 모델이 정확한지 테스트하려면 모델 학습에 사용되지 않은 몇 가지 예제가 필요합니다.
데이터의 10~20%는 테스트 데이터여야 합니다.

다양성

또한 다양한 예제를 포함할 수도 있습니다.

예를 들어, 누군가가 마스크를 착용하고 있는지 여부를 감지하는 AI 모델을 만든다고 가정해 보겠습니다. 다양한 사례를 반영하는 이미지를 수집해야 합니다:

 

  • 다양한 종류와 색상의 마스크
  • 성별, 인종, 연령 등 다양한 사람들
  • 다양한 배경 - 실내, 실외, 밝음, 어두움
  • 다양한 헤드 각도
  • 프레임에서 머리의 다양한 배치 - 가까이, 멀리, 왼쪽, 오른쪽

마스크 수업에서 파란색 수술용 마스크를 쓴 백인 남성의 이미지로만 모델을 훈련시킨다면 어떻게 될까요? 보라색 마스크를 쓴 유색인종 여성이 모델을 사용하면 어떻게 될까요? 어떻게 분류될 것이라고 생각하시나요? 모델이 잘 수행할까요, 그렇지 않을까요?

마스크를 쓴 아프리카계 미국인 여성

데이터 유형

데이터 집합은 또한 올바른 종류의 데이터여야 합니다. 프로젝트에 적합한 데이터 유형을 선택해야 합니다! 옵션은 다음과 같습니다:

엑셀 아이콘

숫자

통계 데이터, 인구 통계 정보, 센서 데이터

텍스트 문서

텍스트

메시지, 소셜 미디어 게시물, 책, 기사, 웹사이트

음파

사운드

음악, 녹음, 음성

이미지 아이콘

이미지

얼굴, 장소... 무엇이든!

AI가 제공하는 힘

데이터 집합에 무엇이 포함되는지 결정하면 다음과 같은 이점이 있습니다. 엄청난 파워!

데이터 세트에 들어갈 내용을 결정하면 엄청난 힘을 얻을 수 있습니다!

사용 시 주의 많은 많은 데이터를 다른 데이터, 그리고 올바른 유형의 데이터의 종류.

그렇지 않으면 AI 모델이

  • 매우 정확하지 않음
  • 잘못된 예측을 할 수 있습니다.
  • 잘못된 조치를 취합니다.

성공적인 모델을 위해서는 시간을 들여 건강한 데이터 집합을 구성할 데이터를 수집하는 것이 중요합니다.

공중에서 주먹을 든 소녀

데이터 수집

모델 학습을 위한 데이터를 수집하는 방법에는 3가지가 있습니다.

센서에 대한 자세한 정보

소형 마이크로컨트롤러에 연결하여 프로젝트에 데이터를 제공할 수 있는 저렴한 센서가 많이 있습니다. 다음은 사용할 수 있는 몇 가지 센서입니다.

카메라

카메라

속도계

마이크

광 센서

압력 센서

공기질 센서

적외선 온도계

근접 센서

활동: 데이터 집합 계획

예상 시간: 45분

워크시트의 지침에 따라 개요를 작성하세요:

  • 수집하려는 데이터 유형.
  • 데이터 세트의 데이터를 수집할 위치. 커뮤니티, 센서 또는 공개 데이터 세트 중 어디에서 수집할 것인가요?
  • 데이터를 어떻게 수집할 것인가요? 모델의 클래스 또는 레이블은 무엇일까요?
  • 각 수업에 몇 개의 예제가 있나요? 수업당 최소 50개는 되어야 합니다.
워크시트 열기

모범 모범 사례 학생들에게 일상 생활에서 겪는 문제에 대해 생각해 보도록 격려하세요. 이와 관련된 데이터 세트가 있나요? 주변 물건에 센서가 있나요? 이 센서들은 어떤 종류의 정보를 수집하고 있나요? 이를 어떻게 사용할 수 있을까요(새 구글 휴대폰에는 온도 센서가 있습니다)?

학생들에게 물어볼 수 있는 가이드 질문 귀하의 도시에 "오픈 데이터" 포털이 있나요? 예시: NYC캐나다 에드먼턴.

멘토 팁은 AmeriCorps의 지원을 받아 제공됩니다.

양식화된 A, 아메리칸 군단 로고(네이비)

돌아보기 

이제 데이터 세트에 대한 계획이 생겼습니다! 데이터 집합에 대한 예제를 수집하기 시작할 때, 안전하고 잘 정리된 상태로 보관하세요.

테스트를 위해 데이터 세트의 일부를 보관하는 것을 잊지 마세요! 테스트를 위해 약 10~20%는 별도로 보관해야 합니다.

호수에 비친 반사

주요 용어 검토

  • 데이터 세트 - AI가 패턴을 인식하고 무언가를 예측하도록 학습시키는 데 사용되는 대규모 데이터 세트

  • 센서 - 환경의 변화를 감지하고 전자 시스템 내에서 해당 정보를 모니터링하는 데 사용되는 장치입니다.

  • 마이크로컨트롤러 - 가전제품, 차량, 로봇과 같은 대형 컴퓨터 및 기타 시스템에 사용되는 단일 통합 칩의 소형 컴퓨터입니다.

추가 리소스

하드웨어 및 센서


센서의 전체 목록은 다음 문서를 참조하세요. 위키피디아 문서.

이 동영상은 센서를 사용하는 프로젝트에 권장하는 마이크로컨트롤러 하드웨어에 대한 좋은 정보를 제공합니다.

이 동영상 자습서에서는 Kaggle의 공개 데이터 집합에 액세스하는 방법을 보여 드립니다.