- विभिन्न प्रकार के डेटासेट के बारे में जानें
- अपने प्रोजेक्ट AI मॉडल के लिए डेटासेट की योजना बनाना शुरू करें जो कुछ भविष्यवाणी करेगा
इस पाठ के लिए ये गतिविधियाँ हैं:
स्वस्थ डेटासेट
एआई मॉडल बनाने में पहला कदम जो किसी चीज को वर्गीकृत कर सकता है, डेटासेट की योजना बनाना है।
स्वस्थ डेटासेट
बहुत सारा डेटा
डेटा के विभिन्न उदाहरण
सही प्रकार का डेटा
सही कार्य या निर्णय
एआई को डेटा की जरूरत है
अपने डेटासेट के लिए उदाहरण एकत्र करते समय निम्नलिखित गुणों को ध्यान में रखें।

बड़ तादाद
आप मॉडल को जितने अधिक उदाहरण देंगे, वह उतना ही बेहतर प्रदर्शन करेगा। प्रत्येक वर्ग के लिए कम से कम 50 उदाहरण प्रदान करें।

तराजू
आपके पास प्रत्येक वर्ग के लिए समान संख्या में उदाहरण होने चाहिए, ताकि एक दूसरे के लिए पूर्वाग्रह को रोका जा सके।

परीक्षण डेटा
प्रशिक्षित मॉडल का परीक्षण करने के लिए अपने उदाहरणों के एक हिस्से को अलग रखें। आपको कुछ उदाहरणों की आवश्यकता होगी जिनका उपयोग मॉडल को प्रशिक्षित करने के लिए नहीं किया गया था ताकि यह परीक्षण किया जा सके कि आपका मॉडल सटीक है या नहीं।
10-20% डेटा परीक्षण डेटा होना चाहिए।
विविधता
आप विभिन्न उदाहरणों को भी शामिल करना चाहते हैं।
उदाहरण के लिए, मान लें कि आप यह पता लगाने के लिए एआई मॉडल बना रहे हैं कि किसी ने फेस मास्क पहना है या नहीं। आपको उन छवियों को इकट्ठा करना चाहिए जो विभिन्न उदाहरणों को दर्शाती हैं:
- मास्क के विभिन्न प्रकार और रंग
- अलग-अलग लोग - लिंग, जातीयता, उम्र
- अलग-अलग पृष्ठभूमि - घर के अंदर, बाहर, प्रकाश, अंधेरा
- विभिन्न सिर कोण
- फ्रेम में सिर का अलग-अलग स्थान - करीब, दूर, बाईं ओर, दाईं ओर
क्या होगा यदि आपने केवल अपने मुखौटा वर्ग के लिए नीले सर्जिकल मास्क के साथ सफेद पुरुषों की छवियों का उपयोग करके अपने मॉडल को प्रशिक्षित किया है? क्या होता है जब बैंगनी मुखौटा पहने रंग की महिला आपके मॉडल का उपयोग करती है? आपको क्या लगता है कि इसे कैसे वर्गीकृत किया जाएगा? आपका मॉडल अच्छा प्रदर्शन करेगा या नहीं?
डेटा के प्रकार
एक डेटासेट भी सही प्रकार का डेटा होना चाहिए। सुनिश्चित करें कि आप डेटा प्रकार चुनते हैं जो आपकी परियोजना के लिए सही है! विकल्प हैं:

नंबर
सांख्यिकीय डेटा, जनसांख्यिकीय जानकारी, सेंसर डेटा

टेक्स्ट
संदेश, सोशल मीडिया पोस्ट, किताबें, लेख, वेबसाइट

ध्वनि
संगीत, रिकॉर्डिंग, आवाज़ें

छवियां
चेहरे, जगहें ... कुछ भी!
एआई आपको शक्ति देता है
यह निर्धारित करना कि आपके डेटासेट में क्या जाता है, आपको अपार शक्ति देता है!
उपयोग करने में सावधानी बरतें यह निर्धारित करना कि आपके डेटासेट में क्या जाता है, आपको अपार शक्ति प्रदान करता है!
बहुत सारे डेटा, भिन्न डेटा और सही प्रकार के डेटा का उपयोग करने में सावधानी बरतें.
अन्यथा, आपका AI मॉडल होगा
- बहुत सटीक नहीं होना चाहिए
- गलत भविष्यवाणियां कर सकता है
- गलत कार्रवाई करें।
एक स्वस्थ डेटासेट बनाने वाले डेटा को एकत्र करने के लिए समय निकालना एक सफल मॉडल के लिए महत्वपूर्ण है।
डेटा एकत्र करना
अपने मॉडल के प्रशिक्षण के लिए डेटा एकत्र करने के 3 तरीके हैं।

यदि आपकी परियोजना सीधे आपके समुदाय पर केंद्रित है, तो समुदाय आपके लिए आवश्यक डेटा की आपूर्ति करने के लिए तार्किक स्थान बना सकता है। सुनिश्चित करें कि आपके पास डेटा का उपयोग करने की अनुमति है!
आपके समुदाय में डेटा कैसे एकत्र किया जाएगा?
- तस्वीरें ले लो?
- समुदाय के सदस्यों से आपको तस्वीरें देने के लिए कहें?
- रिकॉर्ड लगता है?
- एक सर्वेक्षण का उपयोग करें?
- समुदाय के सदस्यों का साक्षात्कार?

यदि आपको अपने मॉडल के लिए बहुत सारे और बहुत सारे डेटा की आवश्यकता है, तो आप सार्वजनिक डेटासेट देख सकते हैं। ऑनलाइन कई डेटासेट उपलब्ध हैं जो आपको बड़ी मात्रा में डेटा जल्दी से प्रदान कर सकते हैं।
यहां कुछ अच्छी डेटासेट साइटें दी गई हैं:
यह सुनिश्चित करने के लिए डेटा की समीक्षा करना सुनिश्चित करें कि यह एक स्वस्थ डेटासेट के लिए ऊपर दिए गए मानदंडों के अनुरूप है।
सबसे अधिक संभावना है कि आपको अपनी आवश्यकताओं के अनुरूप डेटा में कुछ बदलाव करने होंगे। उदाहरण के लिए, जैसे उपकरण Teachable मशीन को ऐसी छवियों की आवश्यकता होती है जो वर्गाकार हों, इसलिए आपके द्वारा उपयोग किए जा रहे टूल के लिए सही आयामों को फिट करने के लिए आपको डेटासेट छवियों को संपादित करने की आवश्यकता हो सकती है।
माइक्रोकंट्रोलर एकल एकीकृत सर्किट पर छोटे कंप्यूटर होते हैं जिनका उपयोग ऑटोमोबाइल इंजन और घरेलू उपकरणों जैसे उपकरणों को नियंत्रित करने के लिए किया जाता है। कुछ माइक्रोकंट्रोलर में बिल्ट-इन सेंसर होते हैं। कई के पास सेंसर को उनसे कनेक्ट करने के विकल्प हैं।
इनमें से प्रत्येक नीचे तीन अनुशंसित माइक्रोकंट्रोलर इसकी अपनी विशेष विशेषताएं हैं, और उन्हें आपकी परियोजना के लिए काम करने के लिए विभिन्न प्रोग्रामिंग भाषाओं का उपयोग करने की आवश्यकता हो सकती है। ऐप इन्वेंटर जैसे कुछ टूल में एक्सटेंशन होते हैं जिन्हें आप उन टूल के साथ इन उपकरणों का उपयोग करने में सक्षम होने के लिए जोड़ सकते हैं। सभी तीन उपकरणों ने हाल ही में एआई क्षमता को जोड़ा है, इसलिए आप यह देखना चाहते हैं कि क्या संभव है!
सेंसर पर अधिक
कई कम लागत वाले सेंसर हैं जो छोटे माइक्रोकंट्रोलर से जुड़ सकते हैं और आपकी परियोजना को डेटा प्रदान कर सकते हैं। यहां कुछ सेंसर दिए गए हैं जिनका उपयोग किया जा सकता है।
कैमरा
स्पीडोमीटर
माइक्रोफ़ोन
प्रकाश संवेदक
दबाव संवेदक
वायु गुणवत्ता सेंसर
इन्फ्रारेड थर्मामीटर
निकटता सेंसर
गतिविधि: अपने डेटासेट की योजना बनाएं
बाह्यरेखांकित करने के लिए कार्यपत्रक में दिए गए निर्देशों का पालन करें:
- आप कौन सा डेटा एकत्र करना चाहते हैं।
- जहां आप अपने डेटासेट के लिए डेटा एकत्र करेंगे। क्या यह समुदाय, सेंसर या सार्वजनिक डेटासेट होगा?
- आप डेटा कैसे एकत्र करेंगे? आपके मॉडल के लिए कक्षाएं या लेबल क्या होंगे?
- प्रत्येक वर्ग के लिए कितने उदाहरण हैं? 50 प्रति वर्ग न्यूनतम होना चाहिए।
मेंटर टिप
सर्वोत्तम अभ्यास: छात्रों को उन समस्याओं के बारे में सोचने के लिए प्रोत्साहित करें जो उनके दिन-प्रतिदिन के जीवन में हैं, क्या कोई डेटा सेट है जो इससे संबंधित है? क्या आपके आस-पास की वस्तुओं में कोई सेंसर हैं? ये सेंसर किस तरह की जानकारी इकट्ठा कर रहे हैं? आप उनका उपयोग कैसे कर सकते हैं (नए Google फ़ोन में तापमान संवेदक है)?
छात्रों से पूछने के लिए मार्गदर्शक प्रश्न: क्या आपके शहर में "ओपन डेटा" पोर्टल है? उदाहरण: NYC और एडमोंटन, कनाडा।
AmeriCorps के समर्थन से मेंटर टिप्स प्रदान किए जाते हैं।
परावर्तन
अब आपके पास अपने डेटासेट के लिए एक योजना है! जैसे ही आप अपने डेटासेट के लिए उदाहरण एकत्र करना शुरू करते हैं, उन्हें सुरक्षित और सुव्यवस्थित रखें।
डेटासेट के एक हिस्से को परीक्षण के लिए रखना न भूलें! परीक्षण के लिए लगभग 10-20% अलग रखा जाना चाहिए।
प्रमुख शब्दों की समीक्षा
डेटासेट - डेटा के बड़े सेट जिनका उपयोग एआई को पैटर्न पहचानने और किसी चीज की भविष्यवाणी करने के लिए सिखाने के लिए किया जाता है
सेंसर - एक उपकरण जो पर्यावरण में परिवर्तन का पता लगाता है और इलेक्ट्रॉनिक सिस्टम के भीतर उस जानकारी की निगरानी के लिए उपयोग किया जाता है
माइक्रोकंट्रोलर - एकल एकीकृत चिप पर छोटा कंप्यूटर, जिसका उपयोग बड़े कंप्यूटर और अन्य प्रणालियों जैसे उपकरणों, वाहनों और रोबोट में किया जाता है
अतिरिक्त संसाधन
हार्डवेयर और सेंसर
सेंसर की एक व्यापक सूची के लिए, इस विकिपीडिया लेख को देखें।
यह वीडियो माइक्रोकंट्रोलर हार्डवेयर पर अच्छी जानकारी देता है जिसे हम सेंसर का उपयोग करने वाली परियोजनाओं के लिए सुझाते हैं।
यह वीडियो ट्यूटोरियल आपको दिखाता है कि Kaggle पर सार्वजनिक डेटासेट तक कैसे पहुंचा जाए।



