AI: डेटासेट

  • विभिन्न प्रकार के डेटासेट के बारे में जानें
  • अपने प्रोजेक्ट AI मॉडल के लिए डेटासेट की योजना बनाना शुरू करें जो कुछ भविष्यवाणी करेगा

इस पाठ के लिए ये गतिविधियाँ हैं:

स्वस्थ डेटासेट

एआई मॉडल बनाने में पहला कदम जो किसी चीज को वर्गीकृत कर सकता है, डेटासेट की योजना बनाना है।

स्वस्थ डेटासेट

right arrow

बहुत सारा डेटा

डेटा के विभिन्न उदाहरण

सही प्रकार का डेटा

right arrow

सही कार्य या निर्णय

एआई को डेटा की जरूरत है

अपने डेटासेट के लिए उदाहरण एकत्र करते समय निम्नलिखित गुणों को ध्यान में रखें।

बड़ तादाद

आप मॉडल को जितने अधिक उदाहरण देंगे, वह उतना ही बेहतर प्रदर्शन करेगा। प्रत्येक वर्ग के लिए कम से कम 50 उदाहरण प्रदान करें।

balanced scales

तराजू

आपके पास प्रत्येक वर्ग के लिए समान संख्या में उदाहरण होने चाहिए, ताकि एक दूसरे के लिए पूर्वाग्रह को रोका जा सके।

folders

परीक्षण डेटा

प्रशिक्षित मॉडल का परीक्षण करने के लिए अपने उदाहरणों के एक हिस्से को अलग रखें। आपको कुछ उदाहरणों की आवश्यकता होगी जिनका उपयोग मॉडल को प्रशिक्षित करने के लिए नहीं किया गया था ताकि यह परीक्षण किया जा सके कि आपका मॉडल सटीक है या नहीं।
10-20% डेटा परीक्षण डेटा होना चाहिए।

विविधता

आप विभिन्न उदाहरणों को भी शामिल करना चाहते हैं।

उदाहरण के लिए, मान लें कि आप यह पता लगाने के लिए एआई मॉडल बना रहे हैं कि किसी ने फेस मास्क पहना है या नहीं। आपको उन छवियों को इकट्ठा करना चाहिए जो विभिन्न उदाहरणों को दर्शाती हैं:

 

  • मास्क के विभिन्न प्रकार और रंग
  • अलग-अलग लोग - लिंग, जातीयता, उम्र
  • अलग-अलग पृष्ठभूमि - घर के अंदर, बाहर, प्रकाश, अंधेरा
  • विभिन्न सिर कोण
  • फ्रेम में सिर का अलग-अलग स्थान - करीब, दूर, बाईं ओर, दाईं ओर

क्या होगा यदि आपने केवल अपने मुखौटा वर्ग के लिए नीले सर्जिकल मास्क के साथ सफेद पुरुषों की छवियों का उपयोग करके अपने मॉडल को प्रशिक्षित किया है? क्या होता है जब बैंगनी मुखौटा पहने रंग की महिला आपके मॉडल का उपयोग करती है? आपको क्या लगता है कि इसे कैसे वर्गीकृत किया जाएगा? आपका मॉडल अच्छा प्रदर्शन करेगा या नहीं?

African American woman with mask

डेटा के प्रकार

एक डेटासेट भी सही प्रकार का डेटा होना चाहिए। सुनिश्चित करें कि आप डेटा प्रकार चुनते हैं जो आपकी परियोजना के लिए सही है! विकल्प हैं:

excel icon

नंबर

सांख्यिकीय डेटा, जनसांख्यिकीय जानकारी, सेंसर डेटा

text document

टेक्स्ट

संदेश, सोशल मीडिया पोस्ट, किताबें, लेख, वेबसाइट

sound wave

ध्वनि

संगीत, रिकॉर्डिंग, आवाज़ें

image icons

छवियां

चेहरे, जगहें ... कुछ भी!

एआई आपको शक्ति देता है

यह निर्धारित करना कि आपके डेटासेट में क्या जाता है, आपको अपार शक्ति देता है!

उपयोग करने में सावधानी बरतें यह निर्धारित करना कि आपके डेटासेट में क्या जाता है, आपको अपार शक्ति प्रदान करता है!

बहुत सारे डेटा, भिन्न डेटा और सही प्रकार के डेटा का उपयोग करने में सावधानी बरतें.

अन्यथा, आपका AI मॉडल होगा

  • बहुत सटीक नहीं होना चाहिए
  • गलत भविष्यवाणियां कर सकता है
  • गलत कार्रवाई करें।

एक स्वस्थ डेटासेट बनाने वाले डेटा को एकत्र करने के लिए समय निकालना एक सफल मॉडल के लिए महत्वपूर्ण है।

girl with fist in the air

डेटा एकत्र करना

अपने मॉडल के प्रशिक्षण के लिए डेटा एकत्र करने के 3 तरीके हैं।

सेंसर पर अधिक

कई कम लागत वाले सेंसर हैं जो छोटे माइक्रोकंट्रोलर से जुड़ सकते हैं और आपकी परियोजना को डेटा प्रदान कर सकते हैं। यहां कुछ सेंसर दिए गए हैं जिनका उपयोग किया जा सकता है।

camera

कैमरा

स्‍पीडोमीटर

माइक्रोफ़ोन

प्रकाश संवेदक

दबाव संवेदक

वायु गुणवत्ता सेंसर

इन्फ्रारेड थर्मामीटर

निकटता सेंसर

गतिविधि: अपने डेटासेट की योजना बनाएं

अनुमानित समय: 45 मिनट

बाह्यरेखांकित करने के लिए कार्यपत्रक में दिए गए निर्देशों का पालन करें:

  • आप कौन सा डेटा एकत्र करना चाहते हैं।
  • जहां आप अपने डेटासेट के लिए डेटा एकत्र करेंगे। क्या यह समुदाय, सेंसर या सार्वजनिक डेटासेट होगा?
  • आप डेटा कैसे एकत्र करेंगे? आपके मॉडल के लिए कक्षाएं या लेबल क्या होंगे?
  • प्रत्येक वर्ग के लिए कितने उदाहरण हैं? 50 प्रति वर्ग न्यूनतम होना चाहिए।
कार्यपत्रक खोलना

सर्वोत्तम अभ्यास: छात्रों को उन समस्याओं के बारे में सोचने के लिए प्रोत्साहित करें जो उनके दिन-प्रतिदिन के जीवन में हैं, क्या कोई डेटा सेट है जो इससे संबंधित है? क्या आपके आस-पास की वस्तुओं में कोई सेंसर हैं? ये सेंसर किस तरह की जानकारी इकट्ठा कर रहे हैं? आप उनका उपयोग कैसे कर सकते हैं (नए Google फ़ोन में तापमान संवेदक है)?

छात्रों से पूछने के लिए मार्गदर्शक प्रश्न: क्या आपके शहर में "ओपन डेटा" पोर्टल है? उदाहरण: NYC और एडमोंटन, कनाडा

AmeriCorps के समर्थन से मेंटर टिप्स प्रदान किए जाते हैं।

stylized A, AmeriCorps logo in navy

परावर्तन

अब आपके पास अपने डेटासेट के लिए एक योजना है! जैसे ही आप अपने डेटासेट के लिए उदाहरण एकत्र करना शुरू करते हैं, उन्हें सुरक्षित और सुव्यवस्थित रखें।

डेटासेट के एक हिस्से को परीक्षण के लिए रखना न भूलें! परीक्षण के लिए लगभग 10-20% अलग रखा जाना चाहिए।

reflection in lake

प्रमुख शब्दों की समीक्षा

  • डेटासेट - डेटा के बड़े सेट जिनका उपयोग एआई को पैटर्न पहचानने और किसी चीज की भविष्यवाणी करने के लिए सिखाने के लिए किया जाता है

  • सेंसर - एक उपकरण जो पर्यावरण में परिवर्तन का पता लगाता है और इलेक्ट्रॉनिक सिस्टम के भीतर उस जानकारी की निगरानी के लिए उपयोग किया जाता है

  • माइक्रोकंट्रोलर - एकल एकीकृत चिप पर छोटा कंप्यूटर, जिसका उपयोग बड़े कंप्यूटर और अन्य प्रणालियों जैसे उपकरणों, वाहनों और रोबोट में किया जाता है

अतिरिक्त संसाधन

हार्डवेयर और सेंसर


सेंसर की एक व्यापक सूची के लिए, इस विकिपीडिया लेख को देखें

यह वीडियो माइक्रोकंट्रोलर हार्डवेयर पर अच्छी जानकारी देता है जिसे हम सेंसर का उपयोग करने वाली परियोजनाओं के लिए सुझाते हैं।

यह वीडियो ट्यूटोरियल आपको दिखाता है कि Kaggle पर सार्वजनिक डेटासेट तक कैसे पहुंचा जाए।