എന്താണ് ഒരു AI ഡാറ്റാസെറ്റ്?

എന്താണ് ഒരു AI ഡാറ്റാസെറ്റ്?

നിങ്ങൾ AI സിസ്റ്റങ്ങൾ നിർമ്മിക്കുകയോ വാങ്ങുകയോ വിലയിരുത്തുകയോ ചെയ്യുകയാണെങ്കിൽ, നിങ്ങൾക്ക് ഒരു വഞ്ചനാപരമായ ലളിതമായ ചോദ്യം നേരിടേണ്ടിവരും & എന്താണ് ഒരു AI ഡാറ്റാസെറ്റ്, അത് ഇത്രയധികം പ്രാധാന്യമർഹിക്കുന്നത് എന്തുകൊണ്ട്? ചുരുക്കിപ്പറഞ്ഞാൽ: ഇത് ഇന്ധനം, പാചകപുസ്തകം, ചിലപ്പോൾ നിങ്ങളുടെ മോഡലിനുള്ള കോമ്പസ് എന്നിവയാണ്. 

ഇതിനു ശേഷം നിങ്ങൾക്ക് വായിക്കാൻ ഇഷ്ടപ്പെട്ടേക്കാവുന്ന ലേഖനങ്ങൾ:

🔗 AI എങ്ങനെയാണ് ട്രെൻഡുകൾ പ്രവചിക്കുന്നത്
ഭാവി സംഭവങ്ങളും പെരുമാറ്റങ്ങളും പ്രവചിക്കുന്നതിനായി പാറ്റേണുകൾ AI എങ്ങനെ വിശകലനം ചെയ്യുന്നുവെന്ന് പര്യവേക്ഷണം ചെയ്യുന്നു.

🔗 AI പ്രകടനം എങ്ങനെ അളക്കാം
കൃത്യത, കാര്യക്ഷമത, മോഡൽ വിശ്വാസ്യത എന്നിവ വിലയിരുത്തുന്നതിനുള്ള അളവുകളും രീതികളും.

🔗 AI-യോട് എങ്ങനെ സംസാരിക്കാം
AI- ജനറേറ്റഡ് പ്രതികരണങ്ങൾ മെച്ചപ്പെടുത്തുന്നതിന് മികച്ച ഇടപെടലുകൾ രൂപപ്പെടുത്തുന്നതിനുള്ള മാർഗ്ഗനിർദ്ദേശം.

🔗 എന്താണ് AI പ്രോംപ്റ്റിംഗ്?
പ്രോംപ്റ്റുകൾ AI ഔട്ട്‌പുട്ടുകളെയും മൊത്തത്തിലുള്ള ആശയവിനിമയ ഗുണനിലവാരത്തെയും എങ്ങനെ രൂപപ്പെടുത്തുന്നു എന്നതിന്റെ അവലോകനം.


ഒരു AI ഡാറ്റാസെറ്റ് എന്താണ്? ഒരു ദ്രുത നിർവചനം 🧩

ഒരു AI ഡാറ്റാസെറ്റ് എന്താണ്? നിങ്ങളുടെ മോഡൽ പഠിക്കുന്നതോ വിലയിരുത്തപ്പെടുന്നതോ ആയ ഉദാഹരണങ്ങളുടെ ഒരു ശേഖരമാണിത്

  • ഇൻപുട്ടുകൾ - ടെക്സ്റ്റ് സ്‌നിപ്പെറ്റുകൾ, ഇമേജുകൾ, ഓഡിയോ, ടാബുലാർ വരികൾ, സെൻസർ റീഡിംഗുകൾ, ഗ്രാഫുകൾ എന്നിവ പോലുള്ള മോഡൽ കാണുന്ന സവിശേഷതകൾ.

  • ലക്ഷ്യങ്ങൾ - വിഭാഗങ്ങൾ, സംഖ്യകൾ, വാചകത്തിന്റെ സ്പാനുകൾ, പ്രവർത്തനങ്ങൾ, അല്ലെങ്കിൽ ചിലപ്പോൾ ഒന്നുമില്ല എന്നിങ്ങനെ മോഡൽ പ്രവചിക്കേണ്ട ലേബലുകൾ അല്ലെങ്കിൽ ഫലങ്ങൾ.

  • മെറ്റാഡാറ്റ - ഉറവിടം, ശേഖരണ രീതി, ടൈംസ്റ്റാമ്പുകൾ, ലൈസൻസുകൾ, സമ്മത വിവരങ്ങൾ, ഗുണനിലവാരത്തെക്കുറിച്ചുള്ള കുറിപ്പുകൾ എന്നിവ പോലുള്ള സന്ദർഭം.

നിങ്ങളുടെ മോഡലിന് വേണ്ടി ശ്രദ്ധാപൂർവ്വം പായ്ക്ക് ചെയ്ത ഒരു ലഞ്ച്ബോക്സ് പോലെ ഇതിനെ സങ്കൽപ്പിക്കുക: ചേരുവകൾ, ലേബലുകൾ, പോഷകാഹാര വസ്തുതകൾ, അതെ, "ഈ ഭാഗം കഴിക്കരുത്" എന്ന് പറയുന്ന സ്റ്റിക്കി നോട്ട്. 🍱

മേൽനോട്ടത്തിലുള്ള ജോലികൾക്ക്, വ്യക്തമായ ലേബലുകളുമായി ജോടിയാക്കിയ ഇൻപുട്ടുകൾ നിങ്ങൾക്ക് കാണാൻ കഴിയും. മേൽനോട്ടമില്ലാത്ത ജോലികൾക്ക്, ലേബലുകളില്ലാത്ത ഇൻപുട്ടുകൾ നിങ്ങൾക്ക് കാണാൻ കഴിയും. ബലപ്പെടുത്തൽ പഠനത്തിന്, ഡാറ്റ പലപ്പോഴും അവസ്ഥകൾ, പ്രവർത്തനങ്ങൾ, റിവാർഡുകൾ എന്നിവയുള്ള എപ്പിസോഡുകളോ പാതകളോ പോലെ കാണപ്പെടുന്നു. മൾട്ടിമോഡൽ ജോലികൾക്ക്, ഉദാഹരണങ്ങൾക്ക് ഒരു റെക്കോർഡിൽ വാചകം + ചിത്രം + ഓഡിയോ സംയോജിപ്പിക്കാൻ കഴിയും. മനോഹരമായി തോന്നുന്നു; മിക്കവാറും പ്ലംബിംഗ് ആണ്.

സഹായകരമായ പ്രൈമറുകളും രീതികളും: ഡാറ്റാസെറ്റുകൾക്കായുള്ള ഡാറ്റാഷീറ്റുകൾ , ഉള്ളിലുള്ളത് എന്താണെന്നും അത് എങ്ങനെ ഉപയോഗിക്കണമെന്നും വിശദീകരിക്കാൻ ടീമുകളെ സഹായിക്കുന്നു [1], കൂടാതെ മോഡൽ കാർഡുകൾ മോഡൽ വശത്ത് ഡാറ്റ ഡോക്യുമെന്റേഷനെ പൂരകമാക്കുന്നു [2].

 

AI ഡാറ്റാസെറ്റ്

ഒരു നല്ല AI ഡാറ്റാസെറ്റ് ഉണ്ടാക്കുന്നത് എന്താണ് ✅

സത്യം പറഞ്ഞാൽ, ഡാറ്റാസെറ്റ് മോശമല്ലാത്തതുകൊണ്ടാണ് പല മോഡലുകളും വിജയിക്കുന്നത്. ഒരു "നല്ല" ഡാറ്റാസെറ്റ് ഇതാണ്:

  • ലാബ് സാഹചര്യങ്ങളുടെ മാത്രമല്ല, യഥാർത്ഥ ഉപയോഗ കേസുകളുടെയും പ്രതിനിധി

  • കൃത്യമായി ലേബൽ ചെയ്തിരിക്കുന്നു . കരാറിന്റെ അളവുകൾ (ഉദാ. കപ്പ-ശൈലി അളവുകൾ) സ്ഥിരത പരിശോധിക്കാൻ സഹായിക്കുന്നു.

  • പൂർണ്ണവും സന്തുലിതവുമാണ് . അസന്തുലിതാവസ്ഥ സാധാരണമാണ്; അശ്രദ്ധ സാധാരണമല്ല.

  • വ്യക്തമായ ഉറവിടം , സമ്മതം, ലൈസൻസ്, അനുമതികൾ എന്നിവ രേഖപ്പെടുത്തിയിട്ടുണ്ട്. വിരസമായ രേഖകൾ ആവേശകരമായ കേസുകൾ തടയുന്നു.

  • ഉദ്ദേശിച്ച ഉപയോഗം, പരിധികൾ, അറിയപ്പെടുന്ന പരാജയ മോഡുകൾ എന്നിവ വ്യക്തമാക്കുന്ന ഡാറ്റ കാർഡുകളോ ഡാറ്റാഷീറ്റുകളോ ഉപയോഗിച്ച് നന്നായി രേഖപ്പെടുത്തിയിട്ടുണ്ട്

  • നിയന്ത്രിക്കപ്പെടുന്നു . ഡാറ്റാസെറ്റ് പുനർനിർമ്മിക്കാൻ കഴിയുന്നില്ലെങ്കിൽ, നിങ്ങൾക്ക് മോഡൽ പുനർനിർമ്മിക്കാൻ കഴിയില്ല. NIST യുടെ AI റിസ്ക് മാനേജ്‌മെന്റ് ഫ്രെയിംവർക്കിൽ ഡാറ്റ ഗുണനിലവാരത്തെയും ഡോക്യുമെന്റേഷനെയും ഒന്നാംതരം ആശങ്കകളായി കണക്കാക്കുന്നു [3].


നിങ്ങൾ ചെയ്യുന്നതിനെ അടിസ്ഥാനമാക്കി AI ഡാറ്റാസെറ്റുകളുടെ തരങ്ങൾ 🧰

ടാസ്‌ക് പ്രകാരം

  • വർഗ്ഗീകരണം - ഉദാ, സ്പാം vs സ്പാം അല്ല, ഇമേജ് വിഭാഗങ്ങൾ.

  • റിഗ്രഷൻ - വില അല്ലെങ്കിൽ താപനില പോലുള്ള ഒരു തുടർച്ചയായ മൂല്യം പ്രവചിക്കുക.

  • ക്രമ ലേബലിംഗ് - പേരുള്ള എന്റിറ്റികൾ, സംസാരത്തിന്റെ ഭാഗങ്ങൾ.

  • തലമുറ - സംഗ്രഹം, വിവർത്തനം, ചിത്ര അടിക്കുറിപ്പ്.

  • ശുപാർശ - ഉപയോക്താവ്, ഇനം, ഇടപെടലുകൾ, സന്ദർഭം.

  • അനോമലി കണ്ടെത്തൽ - സമയ ശ്രേണിയിലോ ലോഗുകളിലോ ഉള്ള അപൂർവ സംഭവങ്ങൾ.

  • ബലപ്പെടുത്തൽ പഠനം - അവസ്ഥ, പ്രവൃത്തി, പ്രതിഫലം, അടുത്ത അവസ്ഥ ശ്രേണികൾ.

  • വീണ്ടെടുക്കൽ - രേഖകൾ, അന്വേഷണങ്ങൾ, പ്രസക്തിയുള്ള വിധിന്യായങ്ങൾ.

രീതി പ്രകാരം

  • ടാബുലാർ - പ്രായം, വരുമാനം, ചർൺ തുടങ്ങിയ കോളങ്ങൾ. വിലയിരുത്തൽ കുറവാണ്, വളരെ ഫലപ്രദമാണ്.

  • വാചകം - പ്രമാണങ്ങൾ, ചാറ്റുകൾ, കോഡ്, ഫോറം പോസ്റ്റുകൾ, ഉൽപ്പന്ന വിവരണങ്ങൾ.

  • ചിത്രങ്ങൾ - ഫോട്ടോകൾ, മെഡിക്കൽ സ്കാനുകൾ, സാറ്റലൈറ്റ് ടൈലുകൾ; മാസ്കുകൾ, ബോക്സുകൾ, കീപോയിന്റുകൾ എന്നിവയോടുകൂടിയോ അല്ലാതെയോ.

  • ഓഡിയോ - തരംഗരൂപങ്ങൾ, ട്രാൻസ്ക്രിപ്റ്റുകൾ, സ്പീക്കർ ടാഗുകൾ.

  • വീഡിയോ ഫ്രെയിമുകൾ, താൽക്കാലിക വ്യാഖ്യാനങ്ങൾ, പ്രവർത്തന ലേബലുകൾ.

  • ഗ്രാഫുകൾ - നോഡുകൾ, അരികുകൾ, ആട്രിബ്യൂട്ടുകൾ.

  • സമയ പരമ്പര - സെൻസറുകൾ, ധനകാര്യം, ടെലിമെട്രി.

മേൽനോട്ടത്തിൽ

  • ലേബൽ ചെയ്തിരിക്കുന്നത് (സ്വർണ്ണം, വെള്ളി, ഓട്ടോ-ലേബൽ ചെയ്തിരിക്കുന്നത്), ദുർബലമായി ലേബൽ ചെയ്തിരിക്കുന്നത് , ലേബൽ ചെയ്യാത്തത് , സിന്തറ്റിക് . സ്റ്റോറിൽ നിന്ന് വാങ്ങുന്ന കേക്ക് മിക്സ് നല്ലതായിരിക്കും - ബോക്സ് വായിച്ചാൽ.


ബോക്സിനുള്ളിൽ: ഘടന, വിഭജനങ്ങൾ, മെറ്റാഡാറ്റ 📦

ഒരു ശക്തമായ ഡാറ്റാസെറ്റിൽ സാധാരണയായി ഇവ ഉൾപ്പെടുന്നു:

  • സ്കീമ - ടൈപ്പ് ചെയ്ത ഫീൽഡുകൾ, യൂണിറ്റുകൾ, അനുവദനീയമായ മൂല്യങ്ങൾ, ശൂന്യമായ കൈകാര്യം ചെയ്യൽ.

  • വിഭജനങ്ങൾ - പരിശീലിപ്പിക്കുക, സാധൂകരിക്കുക, പരീക്ഷിക്കുക. പരിശോധനാ ഡാറ്റ അടച്ചുവയ്ക്കുക - അവസാനത്തെ ചോക്ലേറ്റ് കഷണം പോലെ അതിനെ പരിപാലിക്കുക.

  • സാമ്പിൾ പ്ലാൻ - ജനസംഖ്യയിൽ നിന്ന് നിങ്ങൾ എങ്ങനെയാണ് ഉദാഹരണങ്ങൾ എടുത്തത്; ഒരു പ്രദേശത്തു നിന്നോ ഉപകരണത്തിൽ നിന്നോ ഉള്ള സൗകര്യപ്രദമായ സാമ്പിളുകൾ ഒഴിവാക്കുക.

  • വർദ്ധനവുകൾ - ഫ്ലിപ്പുകൾ, വിളവെടുപ്പ്, ശബ്ദം, പരാവർത്തനങ്ങൾ, മുഖംമൂടികൾ. സത്യസന്ധത പുലർത്തുമ്പോൾ നല്ലത്; കാട്ടിൽ ഒരിക്കലും സംഭവിക്കാത്ത പാറ്റേണുകൾ അവർ കണ്ടുപിടിക്കുമ്പോൾ ദോഷകരമാണ്.

  • പതിപ്പിംഗ് - ഡെൽറ്റകളെ വിവരിക്കുന്ന ചേഞ്ച്‌ലോഗുകൾക്കൊപ്പം ഡാറ്റാസെറ്റ് v0.1, v0.2….

  • ലൈസൻസുകളും സമ്മതവും - ഉപയോഗ അവകാശങ്ങൾ, പുനർവിതരണം, ഇല്ലാതാക്കൽ പ്രവാഹങ്ങൾ. ദേശീയ ഡാറ്റ-പ്രൊട്ടക്ഷൻ റെഗുലേറ്റർമാർ (ഉദാഹരണത്തിന്, യുകെ ഐസിഒ) പ്രായോഗികവും നിയമാനുസൃതവുമായ പ്രോസസ്സിംഗ് ചെക്ക്‌ലിസ്റ്റുകൾ നൽകുന്നു [4].


ഡാറ്റാസെറ്റ് ജീവിതചക്രം, ഘട്ടം ഘട്ടമായി 🔁

  1. തീരുമാനം നിർവചിക്കുക - മോഡൽ എന്ത് തീരുമാനിക്കും, അത് തെറ്റാണെങ്കിൽ എന്ത് സംഭവിക്കും.

  2. സ്കോപ്പ് സവിശേഷതകളും ലേബലുകളും - അളക്കാവുന്നത്, നിരീക്ഷിക്കാവുന്നത്, ശേഖരിക്കാൻ ധാർമ്മികത.

  3. ഉറവിട ഡാറ്റ - ഉപകരണങ്ങൾ, ലോഗുകൾ, സർവേകൾ, പൊതു കോർപ്പറേഷൻ, പങ്കാളികൾ.

  4. സമ്മതവും നിയമപരവും - സ്വകാര്യതാ അറിയിപ്പുകൾ, ഒഴിവാക്കലുകൾ, ഡാറ്റ കുറയ്ക്കൽ. “എന്തുകൊണ്ട്”, “എങ്ങനെ” [4] എന്നിവയ്‌ക്കുള്ള റെഗുലേറ്റർ മാർഗ്ഗനിർദ്ദേശം കാണുക.

  5. ശേഖരിക്കുകയും സംഭരിക്കുകയും ചെയ്യുക - സുരക്ഷിത സംഭരണം, റോൾ അധിഷ്ഠിത ആക്സസ്, PII കൈകാര്യം ചെയ്യൽ.

  6. ലേബൽ - ആന്തരിക വ്യാഖ്യാനകർ, ക്രൗഡ്‌സോഴ്‌സിംഗ്, വിദഗ്ധർ; സ്വർണ്ണ ടാസ്‌ക്കുകൾ, ഓഡിറ്റുകൾ, കരാർ മെട്രിക്‌സുകൾ എന്നിവ ഉപയോഗിച്ച് ഗുണനിലവാരം കൈകാര്യം ചെയ്യുക.

  7. വൃത്തിയാക്കി സാധാരണവൽക്കരിക്കുക - ഡ്യൂപ്പ് ചെയ്യുക, നഷ്ടം കൈകാര്യം ചെയ്യുക, യൂണിറ്റുകൾ സ്റ്റാൻഡേർഡ് ചെയ്യുക, എൻകോഡിംഗ് ശരിയാക്കുക. വിരസമായ, വീരോചിതമായ പ്രവൃത്തി.

  8. വിഭജിക്കുകയും സാധൂകരിക്കുകയും ചെയ്യുക - ചോർച്ച തടയുക; പ്രസക്തമായിടത്ത് വർഗ്ഗീകരിക്കുക; താൽക്കാലിക ഡാറ്റയ്ക്കായി സമയബോധമുള്ള വിഭജനങ്ങൾ തിരഞ്ഞെടുക്കുക; ശക്തമായ എസ്റ്റിമേറ്റുകൾക്കായി ശ്രദ്ധാപൂർവ്വം ക്രോസ്-വാലിഡേഷൻ ഉപയോഗിക്കുക [5].

  9. ഡോക്യുമെന്റ് - ഡാറ്റാഷീറ്റ് അല്ലെങ്കിൽ ഡാറ്റ കാർഡ്; ഉദ്ദേശിച്ച ഉപയോഗം, മുന്നറിയിപ്പുകൾ, പരിമിതികൾ [1].

  10. നിരീക്ഷിക്കുകയും അപ്ഡേറ്റ് ചെയ്യുകയും ചെയ്യുക - ഡ്രിഫ്റ്റ് ഡിറ്റക്ഷൻ, റിഫ്രഷ് കാഡൻസ്, സൺസെറ്റ് പ്ലാനുകൾ. NIST യുടെ AI RMF ഈ തുടർച്ചയായ ഗവേണൻസ് ലൂപ്പിനെ രൂപപ്പെടുത്തുന്നു [3].

ദ്രുതവും യഥാർത്ഥവുമായ നുറുങ്ങ്: ടീമുകൾ പലപ്പോഴും "ഡെമോയിൽ വിജയിക്കുന്നു", പക്ഷേ അവരുടെ ഡാറ്റാസെറ്റ് നിശബ്ദമായി നീങ്ങുന്നതിനാൽ ഉൽ‌പാദനത്തിൽ ഇടറിവീഴുന്നു - പുതിയ ഉൽപ്പന്ന ലൈനുകൾ, പേരുമാറ്റിയ ഫീൽഡ് അല്ലെങ്കിൽ മാറിയ നയം. ലളിതമായ ഒരു ചേഞ്ച്‌ലോഗ് + ആനുകാലിക റീ-അനോട്ടേഷൻ പാസ് ആ വേദനയുടെ ഭൂരിഭാഗവും ഒഴിവാക്കുന്നു.


ഡാറ്റ ഗുണനിലവാരവും വിലയിരുത്തലും - തോന്നുന്നത്ര വിരസമല്ല 🧪

ഗുണനിലവാരം ബഹുമുഖമാണ്:

  • കൃത്യത - ലേബലുകൾ ശരിയാണോ? കരാർ മെട്രിക്സും ആനുകാലിക വിധിനിർണ്ണയവും ഉപയോഗിക്കുക.

  • പൂർണ്ണത - നിങ്ങൾക്ക് ശരിക്കും ആവശ്യമുള്ള മേഖലകളും ക്ലാസുകളും ഉൾക്കൊള്ളുക.

  • സ്ഥിരത - സമാന ഇൻപുട്ടുകൾക്ക് പരസ്പരവിരുദ്ധമായ ലേബലുകൾ ഒഴിവാക്കുക.

  • സമയബന്ധിതത - പഴകിയ ഡാറ്റ അനുമാനങ്ങളെ ഫോസിലുകൾ ആക്കി മാറ്റുന്നു.

  • ന്യായവും പക്ഷപാതവും - ജനസംഖ്യാശാസ്‌ത്രം, ഭാഷകൾ, ഉപകരണങ്ങൾ, പരിതസ്ഥിതികൾ എന്നിവയിലുടനീളം കവറേജ്; വിവരണാത്മക ഓഡിറ്റുകളിൽ നിന്ന് ആരംഭിക്കുക, തുടർന്ന് സ്ട്രെസ് ടെസ്റ്റുകൾ. ഡോക്യുമെന്റേഷൻ-ആദ്യ രീതികൾ (ഡാറ്റാഷീറ്റുകൾ, മോഡൽ കാർഡുകൾ) ഈ പരിശോധനകളെ ദൃശ്യമാക്കുന്നു [1], കൂടാതെ ഗവേണൻസ് ഫ്രെയിംവർക്കുകൾ അവയെ അപകടസാധ്യത നിയന്ത്രണങ്ങളായി ഊന്നിപ്പറയുന്നു [3].

മോഡൽ മൂല്യനിർണ്ണയത്തിനായി, ശരിയായ സ്പ്ലിറ്റുകൾ , ശരാശരി മെട്രിക്സും ഏറ്റവും മോശം ഗ്രൂപ്പ് മെട്രിക്സും ട്രാക്ക് ചെയ്യുക. തിളങ്ങുന്ന ശരാശരി ഒരു ഗർത്തം മറയ്ക്കാൻ കഴിയും. ക്രോസ്-വാലിഡേഷൻ അടിസ്ഥാനകാര്യങ്ങൾ സ്റ്റാൻഡേർഡ് ML ടൂളിംഗ് ഡോക്സുകളിൽ നന്നായി ഉൾപ്പെടുത്തിയിട്ടുണ്ട് [5].


ധാർമ്മികത, സ്വകാര്യത, ലൈസൻസിംഗ് - സംരക്ഷണ ഭിത്തികൾ 🛡️

നൈതിക ഡാറ്റ ഒരു വൈബ് അല്ല, അതൊരു പ്രക്രിയയാണ്:

  • സമ്മതത്തിന്റെയും ഉദ്ദേശ്യത്തിന്റെയും പരിമിതി - ഉപയോഗങ്ങളെയും നിയമപരമായ അടിസ്ഥാനങ്ങളെയും കുറിച്ച് വ്യക്തമായി പറയുക [4].

  • PII കൈകാര്യം ചെയ്യൽ - ഉചിതമെങ്കിൽ ചെറുതാക്കുക, വ്യാജനാമം ഉപയോഗിക്കുക അല്ലെങ്കിൽ അജ്ഞാതമാക്കുക; അപകടസാധ്യതകൾ കൂടുതലായിരിക്കുമ്പോൾ സ്വകാര്യത വർദ്ധിപ്പിക്കുന്ന സാങ്കേതികവിദ്യ പരിഗണിക്കുക.

  • ആട്രിബ്യൂഷനും ലൈസൻസുകളും - പങ്കിടൽ-സമാനവും വാണിജ്യ-ഉപയോഗ നിയന്ത്രണങ്ങളും പാലിക്കുക.

  • പക്ഷപാതവും ദോഷവും - വ്യാജ പരസ്പര ബന്ധങ്ങൾക്കായുള്ള ഓഡിറ്റ് (“പകൽ വെളിച്ചം = സുരക്ഷിതം” രാത്രിയിൽ വളരെ ആശയക്കുഴപ്പത്തിലാകും).

  • പരിഹാരം - അഭ്യർത്ഥിച്ചാൽ ഡാറ്റ എങ്ങനെ നീക്കം ചെയ്യാമെന്നും അതിൽ പരിശീലനം ലഭിച്ച മോഡലുകൾ എങ്ങനെ തിരികെ കൊണ്ടുവരാമെന്നും അറിയുക (ഇത് നിങ്ങളുടെ ഡാറ്റാഷീറ്റിൽ രേഖപ്പെടുത്തുക) [1].


എത്ര വലുതാണ് വേണ്ടത്? വലുപ്പവും സിഗ്നൽ-ടു-നോയിസും 📏

പ്രധാന നിയമം: കൂടുതൽ ഉദാഹരണങ്ങൾ പ്രസക്തമാണെങ്കിൽ, മിക്കവാറും തനിപ്പകർപ്പുകളല്ലെങ്കിൽ സഹായിക്കും . എന്നാൽ ചിലപ്പോൾ നിങ്ങൾക്ക് ധാരാളം വൃത്തികെട്ട സാമ്പിളുകളേക്കാൾ കുറച്ച്, വൃത്തിയുള്ള, മികച്ച ലേബൽ ചെയ്ത

ശ്രദ്ധിക്കുക:

  • പഠന വക്രങ്ങൾ - നിങ്ങൾ ഡാറ്റാ ബൗണ്ട് ആണോ അതോ മോഡൽ ബൗണ്ട് ആണോ എന്ന് കാണാൻ പ്ലോട്ട് പ്രകടനം vs. സാമ്പിൾ വലുപ്പം.

  • ലോങ്-ടെയിൽ കവറേജ് - അപൂർവവും എന്നാൽ നിർണായകവുമായ ക്ലാസുകൾക്ക് പലപ്പോഴും കൂടുതൽ ബൾക്ക് മാത്രമല്ല, ലക്ഷ്യബോധമുള്ള ശേഖരണം ആവശ്യമാണ്.

  • ശബ്ദം ലേബൽ ചെയ്യുക - അളക്കുക, തുടർന്ന് കുറയ്ക്കുക; അൽപ്പം സഹിക്കാവുന്നതാണ്, വേലിയേറ്റം സഹിക്കാൻ പറ്റില്ല.

  • വിതരണ മാറ്റം - ഒരു മേഖലയിൽ നിന്നോ ചാനലിൽ നിന്നോ ഉള്ള പരിശീലന ഡാറ്റ മറ്റൊന്നിലേക്ക് സാമാന്യവൽക്കരിക്കണമെന്നില്ല; ലക്ഷ്യം പോലുള്ള പരീക്ഷണ ഡാറ്റയിൽ സാധൂകരിക്കുക [5].

സംശയമുണ്ടെങ്കിൽ, ചെറിയ പരീക്ഷണങ്ങൾ നടത്തി വികസിപ്പിക്കുക. അത് താളിക്കുക-ചേർക്കുക, രുചിക്കുക, ക്രമീകരിക്കുക, ആവർത്തിക്കുക എന്നിവ പോലെയാണ്.


ഡാറ്റാസെറ്റുകൾ എവിടെ കണ്ടെത്താനും കൈകാര്യം ചെയ്യാനും കഴിയും 🗂️

ജനപ്രിയ ഉറവിടങ്ങളും ഉപകരണങ്ങളും (ഇപ്പോൾ URL-കൾ ഓർമ്മിക്കേണ്ട ആവശ്യമില്ല):

  • ഹഗ്ഗിംഗ് ഫേസ് ഡാറ്റാസെറ്റുകൾ - പ്രോഗ്രമാറ്റിക് ലോഡിംഗ്, പ്രോസസ്സിംഗ്, പങ്കിടൽ.

  • ഗൂഗിൾ ഡാറ്റാസെറ്റ് തിരയൽ - വെബിലുടനീളം മെറ്റാ-തിരയൽ.

  • UCI ML റിപ്പോസിറ്ററി - അടിസ്ഥാന പാഠങ്ങൾക്കും അധ്യാപനത്തിനുമായി ക്യൂറേറ്റ് ചെയ്ത ക്ലാസിക്കുകൾ.

  • OpenML - ടാസ്‌ക്കുകൾ + ഡാറ്റാസെറ്റുകൾ + ഉറവിടത്തോടെ പ്രവർത്തിക്കുന്നു.

  • AWS ഓപ്പൺ ഡാറ്റ / ഗൂഗിൾ ക്ലൗഡ് പബ്ലിക് ഡാറ്റാസെറ്റുകൾ - ഹോസ്റ്റ് ചെയ്‌ത, വലിയ തോതിലുള്ള കോർപ്പറ.

പ്രോ ടിപ്പ്: ഡൗൺലോഡ് ചെയ്യരുത്. ലൈസൻസും ഡാറ്റാഷീറ്റും വായിക്കുക , തുടർന്ന് പതിപ്പ് നമ്പറുകളും ഉറവിടവും ഉപയോഗിച്ച് നിങ്ങളുടെ സ്വന്തം പകർപ്പ് രേഖപ്പെടുത്തുക [1].


ലേബലിംഗും വ്യാഖ്യാനവും - സത്യം ചർച്ച ചെയ്യപ്പെടുന്നിടത്ത് ✍️

നിങ്ങളുടെ സൈദ്ധാന്തിക ലേബൽ ഗൈഡ് യാഥാർത്ഥ്യവുമായി മല്ലിടുന്ന ഇടമാണ് വ്യാഖ്യാനം:

  • ടാസ്‌ക് ഡിസൈൻ - ഉദാഹരണങ്ങളും എതിർ ഉദാഹരണങ്ങളും ഉപയോഗിച്ച് വ്യക്തമായ നിർദ്ദേശങ്ങൾ എഴുതുക.

  • അനോട്ടേറ്റർ പരിശീലനം - സ്വർണ്ണ ഉത്തരങ്ങളുള്ള സീഡ്, കാലിബ്രേഷൻ റൗണ്ടുകൾ നടത്തുക.

  • ഗുണനിലവാര നിയന്ത്രണം - കരാർ അളവുകൾ, സമവായ സംവിധാനങ്ങൾ, ആനുകാലിക ഓഡിറ്റുകൾ എന്നിവ ഉപയോഗിക്കുക.

  • ടൂളിംഗ് - സ്കീമ വാലിഡേഷനും അവലോകന ക്യൂകളും നടപ്പിലാക്കുന്ന ഉപകരണങ്ങൾ തിരഞ്ഞെടുക്കുക; സ്പ്രെഡ്ഷീറ്റുകൾക്ക് പോലും നിയമങ്ങളും പരിശോധനകളും ഉപയോഗിച്ച് പ്രവർത്തിക്കാൻ കഴിയും.

  • ഫീഡ്‌ബാക്ക് ലൂപ്പുകൾ - ഗൈഡ് പരിഷ്കരിക്കുന്നതിന് അനോട്ടേറ്റർ കുറിപ്പുകളും മോഡൽ തെറ്റുകളും പകർത്തുക.

കോമയുടെ കാര്യത്തിൽ വിയോജിപ്പുള്ള മൂന്ന് സുഹൃത്തുക്കളുമായി ഒരു നിഘണ്ടു എഡിറ്റ് ചെയ്യുന്നത് പോലെ തോന്നുന്നുവെങ്കിൽ... അത് സാധാരണമാണ്. 🙃


ഡാറ്റ ഡോക്യുമെന്റേഷൻ - വ്യക്തമായ അറിവ് 📒

ഒരു ഭാരം കുറഞ്ഞ ഡാറ്റാഷീറ്റോ ഡാറ്റ കാർഡോ ഇനിപ്പറയുന്നവ ഉൾക്കൊള്ളണം:

  • ആരാണ് അത് ശേഖരിച്ചത്, എങ്ങനെ, എന്തുകൊണ്ട്.

  • ഉദ്ദേശിച്ച ഉപയോഗങ്ങളും പരിധിക്ക് പുറത്തുള്ള ഉപയോഗങ്ങളും.

  • അറിയപ്പെടുന്ന വിടവുകൾ, പക്ഷപാതങ്ങൾ, പരാജയ രീതികൾ.

  • ലേബലിംഗ് പ്രോട്ടോക്കോൾ, QA ഘട്ടങ്ങൾ, കരാറിന്റെ സ്ഥിതിവിവരക്കണക്കുകൾ.

  • ലൈസൻസ്, സമ്മതം, പ്രശ്നങ്ങൾക്കുള്ള കോൺടാക്റ്റ്, നീക്കം ചെയ്യൽ പ്രക്രിയ.

ടെംപ്ലേറ്റുകളും ഉദാഹരണങ്ങളും: ഡാറ്റാസെറ്റുകൾക്കും മോഡൽ കാർഡുകൾക്കുമുള്ള ഡാറ്റാഷീറ്റുകൾ വ്യാപകമായി ഉപയോഗിക്കപ്പെടുന്ന ആരംഭ പോയിന്റുകളാണ് [1].

നിർമ്മിക്കുമ്പോൾ എഴുതുക, അതിനു ശേഷമല്ല. മെമ്മറി ഒരു ഫ്ലേക്കി സ്റ്റോറേജ് മീഡിയമാണ്.


താരതമ്യ പട്ടിക - AI ഡാറ്റാസെറ്റുകൾ കണ്ടെത്താനോ ഹോസ്റ്റ് ചെയ്യാനോ ഉള്ള സ്ഥലങ്ങൾ 📊

അതെ, ഇത് അൽപ്പം അഭിപ്രായവ്യത്യാസമുള്ളതാണ്. വാക്കുകൾ മനഃപൂർവ്വം അല്പം അസമമാണ്. കുഴപ്പമില്ല.

ഉപകരണം / റിപ്പോ പ്രേക്ഷകർ വില എന്തുകൊണ്ട് ഇത് പ്രായോഗികമായി പ്രവർത്തിക്കുന്നു
ഹഗ്ഗിംഗ് ഫെയ്‌സ് ഡാറ്റാസെറ്റുകൾ ഗവേഷകർ, എഞ്ചിനീയർമാർ ഫ്രീ-ടയർ വേഗത്തിലുള്ള ലോഡിംഗ്, സ്ട്രീമിംഗ്, കമ്മ്യൂണിറ്റി സ്ക്രിപ്റ്റുകൾ; മികച്ച ഡോക്യുമെന്റുകൾ; പതിപ്പ് ചെയ്ത ഡാറ്റാസെറ്റുകൾ
Google ഡാറ്റാസെറ്റ് തിരയൽ എല്ലാവരും സൗ ജന്യം വിശാലമായ ഉപരിതല വിസ്തീർണ്ണം; കണ്ടെത്തലിന് മികച്ചത്; ചിലപ്പോൾ പൊരുത്തമില്ലാത്ത മെറ്റാഡാറ്റ.
UCI ML റിപ്പോസിറ്ററി വിദ്യാർത്ഥികൾ, അധ്യാപകർ സൗ ജന്യം ക്യുറേറ്റ് ചെയ്ത ക്ലാസിക്കുകൾ; ചെറുതെങ്കിലും വൃത്തിയുള്ളത്; അടിസ്ഥാനരേഖകൾക്കും അധ്യാപനത്തിനും നല്ലതാണ്
ഓപ്പൺഎംഎൽ റിപ്രോ ഗവേഷകർ സൗ ജന്യം ടാസ്‌ക്കുകൾ + ഡാറ്റാസെറ്റുകൾ + ഒരുമിച്ച് പ്രവർത്തിക്കുന്നു; നല്ല ഉത്ഭവ പാതകൾ
AWS ഓപ്പൺ ഡാറ്റ രജിസ്ട്രി ഡാറ്റ എഞ്ചിനീയർമാർ മിക്കവാറും സൗജന്യം പെറ്റാബൈറ്റ്-സ്കെയിൽ ഹോസ്റ്റിംഗ്; ക്ലൗഡ്-നേറ്റീവ് ആക്സസ്; എഗ്രസ് ചെലവുകൾ നിരീക്ഷിക്കുക
കഗിൾ ഡാറ്റാസെറ്റുകൾ പ്രാക്ടീഷണർമാർ സൗ ജന്യം എളുപ്പത്തിലുള്ള പങ്കിടൽ, സ്ക്രിപ്റ്റുകൾ, മത്സരങ്ങൾ; കമ്മ്യൂണിറ്റി സിഗ്നലുകൾ ശബ്ദം ഫിൽട്ടർ ചെയ്യാൻ സഹായിക്കുന്നു.
Google ക്ലൗഡ് പബ്ലിക് ഡാറ്റാസെറ്റുകൾ വിശകലന വിദഗ്ധർ, ടീമുകൾ സൗജന്യം + ക്ലൗഡ് കമ്പ്യൂട്ടിന് സമീപം ഹോസ്റ്റ് ചെയ്‌തു; BigQuery സംയോജനം; ബില്ലിംഗിൽ ശ്രദ്ധിക്കുക.
അക്കാദമിക് പോർട്ടലുകൾ, ലാബുകൾ നിച് വിദഗ്ധർ വ്യത്യാസപ്പെടുന്നു വളരെ പ്രത്യേകതയുള്ളത്; ചിലപ്പോൾ വേണ്ടത്ര രേഖപ്പെടുത്താത്തത് - ഇപ്പോഴും വേട്ടയാടാൻ യോഗ്യമാണ്

(ഒരു സെൽ സംഭാഷണാത്മകമായി തോന്നുകയാണെങ്കിൽ, അത് മനഃപൂർവമാണ്.)


നിങ്ങളുടെ ആദ്യത്തേത് നിർമ്മിക്കുന്നു - ഒരു പ്രായോഗിക സ്റ്റാർട്ടർ കിറ്റ് 🛠️

"എന്താണ് ഒരു AI ഡാറ്റാസെറ്റ്" എന്നതിൽ നിന്ന് "ഞാൻ ഒന്ന് ഉണ്ടാക്കി, അത് പ്രവർത്തിക്കുന്നു" എന്നതിലേക്ക് മാറാൻ നിങ്ങൾ ആഗ്രഹിക്കുന്നു. ഈ മിനിമൽ പാത്ത് പരീക്ഷിക്കുക:

  1. തീരുമാനവും മെട്രിക്കും എഴുതുക - ഉദാഹരണത്തിന്, ശരിയായ ടീമിനെ പ്രവചിച്ചുകൊണ്ട് വരുന്ന പിന്തുണ വഴിതെറ്റലുകൾ കുറയ്ക്കുക. മെട്രിക്: മാക്രോ-F1.

  2. 5 പോസിറ്റീവ്, 5 നെഗറ്റീവ് ഉദാഹരണങ്ങൾ പട്ടികപ്പെടുത്തുക - യഥാർത്ഥ ടിക്കറ്റുകളുടെ സാമ്പിൾ; കെട്ടിച്ചമയ്ക്കരുത്.

  3. ഒരു ലേബൽ ഗൈഡ് ഡ്രാഫ്റ്റ് ചെയ്യുക - ഒരു പേജ്; വ്യക്തമായ ഉൾപ്പെടുത്തൽ/ഒഴിവാക്കൽ നിയമങ്ങൾ.

  4. ഒരു ചെറിയ, യഥാർത്ഥ സാമ്പിൾ ശേഖരിക്കുക - വിഭാഗങ്ങളിലായി ഏതാനും നൂറുകണക്കിന് ടിക്കറ്റുകൾ; നിങ്ങൾക്ക് ആവശ്യമില്ലാത്ത PII നീക്കം ചെയ്യുക.

  5. ചോർച്ച പരിശോധനകൾ ഉപയോഗിച്ച് വിഭജിക്കുക - ഒരേ ഉപഭോക്താവിൽ നിന്നുള്ള എല്ലാ സന്ദേശങ്ങളും ഒരു വിഭജനത്തിൽ സൂക്ഷിക്കുക; വേരിയൻസ് കണക്കാക്കാൻ ക്രോസ്-വാലിഡേഷൻ ഉപയോഗിക്കുക [5].

  6. ഉപയോഗിച്ച് QA വ്യാഖ്യാനിക്കുക ; അഭിപ്രായവ്യത്യാസങ്ങൾ പരിഹരിക്കുക; ഗൈഡ് അപ്ഡേറ്റ് ചെയ്യുക.

  7. ഒരു ലളിതമായ അടിസ്ഥാനരേഖ പരിശീലിപ്പിക്കുക - ആദ്യം ലോജിസ്റ്റിക്സ് (ഉദാ: ലീനിയർ മോഡലുകൾ അല്ലെങ്കിൽ കോംപാക്റ്റ് ട്രാൻസ്ഫോർമറുകൾ). മെഡലുകൾ നേടുകയല്ല, ഡാറ്റ പരിശോധിക്കുക എന്നതാണ് ലക്ഷ്യം.

  8. പിശകുകൾ അവലോകനം ചെയ്യുക - എവിടെയാണ് അത് പരാജയപ്പെടുന്നത്, എന്തുകൊണ്ട്; മോഡൽ മാത്രമല്ല, ഡാറ്റാസെറ്റും അപ്ഡേറ്റ് ചെയ്യുക.

  9. ഡോക്യുമെന്റ് - ചെറിയ ഡാറ്റാഷീറ്റ്: ഉറവിടം, ലേബൽ ഗൈഡ് ലിങ്ക്, വിഭജനങ്ങൾ, അറിയപ്പെടുന്ന പരിധികൾ, ലൈസൻസ് [1].

  10. പ്ലാൻ പുതുക്കൽ - പുതിയ വിഭാഗങ്ങൾ, പുതിയ സ്ലാംഗ്, പുതിയ ഡൊമെയ്‌നുകൾ വരുന്നു; ചെറുതും ഇടയ്ക്കിടെയുള്ളതുമായ അപ്‌ഡേറ്റുകൾ ഷെഡ്യൂൾ ചെയ്യുക [3].

ആയിരം ഹോട്ട് ടേക്കുകളിൽ നിന്ന് പഠിക്കുന്നതിനേക്കാൾ കൂടുതൽ കാര്യങ്ങൾ ഈ ലൂപ്പിൽ നിന്ന് നിങ്ങൾക്ക് പഠിക്കാൻ കഴിയും. കൂടാതെ, ബാക്കപ്പുകൾ സൂക്ഷിക്കുക. ദയവായി.


ടീമുകളിൽ ഒളിഞ്ഞുനോക്കുന്ന സാധാരണ പിഴവുകൾ 🪤

  • ഡാറ്റ ചോർച്ച - ഉത്തരം സവിശേഷതകളിലേക്ക് വഴുതിവീഴുന്നു (ഉദാഹരണത്തിന്, ഫലങ്ങൾ പ്രവചിക്കാൻ പോസ്റ്റ്-റെസല്യൂഷൻ ഫീൽഡുകൾ ഉപയോഗിക്കുന്നു). വഞ്ചന പോലെ തോന്നുന്നു, കാരണം അത് അങ്ങനെയാണ്.

  • ആഴം കുറഞ്ഞ വൈവിധ്യം - ഒരു ഭൂമിശാസ്ത്രമോ ഉപകരണമോ ആഗോളമായി വേഷംമാറി നടക്കുന്നു. പരീക്ഷണങ്ങൾ പ്ലോട്ടിന്റെ വഴിത്തിരിവ് വെളിപ്പെടുത്തും.

  • ലേബൽ ഡ്രിഫ്റ്റ് - മാനദണ്ഡങ്ങൾ കാലക്രമേണ മാറുന്നു, പക്ഷേ ലേബൽ ഗൈഡ് മാറുന്നില്ല. നിങ്ങളുടെ ഓൺടോളജി രേഖപ്പെടുത്തുകയും പതിപ്പ് നൽകുകയും ചെയ്യുക.

  • വ്യക്തമാക്കിയിട്ടില്ലാത്ത ലക്ഷ്യങ്ങൾ - നിങ്ങൾക്ക് ഒരു മോശം പ്രവചനം നിർവചിക്കാൻ കഴിയുന്നില്ലെങ്കിൽ, നിങ്ങളുടെ ഡാറ്റയും അങ്ങനെ ചെയ്യില്ല.

  • വൃത്തികെട്ട ലൈസൻസുകൾ - ഇപ്പോൾ റദ്ദാക്കുകയും പിന്നീട് ക്ഷമാപണം നടത്തുകയും ചെയ്യുന്നത് ഒരു തന്ത്രമല്ല.

  • ഓവർ-ഓഗ്മെന്റേഷൻ - അയഥാർത്ഥമായ പുരാവസ്തുക്കൾ പഠിപ്പിക്കുന്ന സിന്തറ്റിക് ഡാറ്റ, പ്ലാസ്റ്റിക് പഴങ്ങളിൽ ഒരു പാചകക്കാരനെ പരിശീലിപ്പിക്കുന്നത് പോലെ.


ആ വാക്യത്തെക്കുറിച്ചുള്ള പെട്ടെന്നുള്ള പതിവ് ചോദ്യങ്ങൾ ❓

  • “ഒരു AI ഡാറ്റാസെറ്റ് എന്താണ്?” എന്നത് ഒരു നിർവചന കാര്യമാണോ? മിക്കവാറും, എന്നാൽ മോഡലുകളെ വിശ്വസനീയമാക്കുന്ന വിരസമായ ബിറ്റുകളെക്കുറിച്ച് നിങ്ങൾ ശ്രദ്ധിക്കുന്നു എന്നതിന്റെ സൂചന കൂടിയാണിത്.

  • എനിക്ക് എപ്പോഴും ലേബലുകൾ ആവശ്യമുണ്ടോ? ഇല്ല. മേൽനോട്ടമില്ലാത്ത, സ്വയം മേൽനോട്ടത്തിലുള്ള, RL സജ്ജീകരണങ്ങൾ പലപ്പോഴും വ്യക്തമായ ലേബലുകൾ ഒഴിവാക്കാറുണ്ട്, പക്ഷേ ക്യൂറേഷൻ ഇപ്പോഴും പ്രധാനമാണ്.

  • പൊതു ഡാറ്റ എനിക്ക് എന്തിനും ഉപയോഗിക്കാമോ? ഇല്ല. ലൈസൻസുകൾ, പ്ലാറ്റ്‌ഫോം നിബന്ധനകൾ, സ്വകാര്യതാ ബാധ്യതകൾ എന്നിവയെ ബഹുമാനിക്കുക [4].

  • വലുതോ മികച്ചതോ? രണ്ടും, അനുയോജ്യം. തിരഞ്ഞെടുക്കണമെങ്കിൽ, ആദ്യം നല്ലത് തിരഞ്ഞെടുക്കുക.


അന്തിമ കുറിപ്പുകൾ - നിങ്ങൾക്ക് സ്ക്രീൻഷോട്ട് ചെയ്യാൻ കഴിയുന്നത് 📌

ഒരു AI ഡാറ്റാസെറ്റ് എന്താണെന്ന് ആരെങ്കിലും നിങ്ങളോട് ചോദിച്ചാൽ , പറയുക: ഇത് ഒരു മോഡലിനെ പഠിപ്പിക്കുകയും പരീക്ഷിക്കുകയും ചെയ്യുന്ന ഉദാഹരണങ്ങളുടെ ഒരു ക്യൂറേറ്റഡ്, ഡോക്യുമെന്റഡ് ശേഖരമാണ്, ആളുകൾക്ക് ഫലങ്ങളിൽ വിശ്വസിക്കാൻ കഴിയുന്ന തരത്തിൽ ഗവേണൻസിൽ പൊതിഞ്ഞിരിക്കുന്നു. മികച്ച ഡാറ്റാസെറ്റുകൾ പ്രതിനിധീകരിക്കുന്നതും, നന്നായി ലേബൽ ചെയ്തതും, നിയമപരമായി വൃത്തിയുള്ളതും, തുടർച്ചയായി പരിപാലിക്കപ്പെടുന്നതുമാണ്. ബാക്കിയുള്ളവ ഘടന, വിഭജനങ്ങൾ, മോഡലുകളെ ട്രാഫിക്കിലേക്ക് അലഞ്ഞുതിരിയുന്നത് തടയുന്ന എല്ലാ ചെറിയ ഗാർഡ്‌റെയിലുകളെയും കുറിച്ചുള്ള വിശദാംശങ്ങൾ-പ്രധാനമായ വിശദാംശങ്ങൾ എന്നിവയാണ്. ചിലപ്പോൾ ഈ പ്രക്രിയ സ്പ്രെഡ്‌ഷീറ്റുകൾ ഉപയോഗിച്ച് പൂന്തോട്ടപരിപാലനം പോലെയാണ് തോന്നുന്നത്; ചിലപ്പോൾ പിക്‌സലുകൾ കൂട്ടത്തോടെ സൂക്ഷിക്കുന്നത് പോലെ. എന്തായാലും, ഡാറ്റയിൽ നിക്ഷേപിക്കുക, നിങ്ങളുടെ മോഡലുകൾ അത്ര വിചിത്രമായി പെരുമാറില്ല. 🌱🤖


അവലംബം

[1] ഡാറ്റാസെറ്റുകൾക്കായുള്ള ഡാറ്റാഷീറ്റുകൾ - ഗെബ്രു തുടങ്ങിയവർ, arXiv. ലിങ്ക്
[2] മോഡൽ റിപ്പോർട്ടിംഗിനുള്ള മോഡൽ കാർഡുകൾ - മിച്ചൽ തുടങ്ങിയവർ, arXiv. ലിങ്ക്
[3] NIST ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് റിസ്ക് മാനേജ്മെന്റ് ഫ്രെയിംവർക്ക് (AI RMF 1.0) . ലിങ്ക്
[4] യുകെ GDPR മാർഗ്ഗനിർദ്ദേശവും ഉറവിടങ്ങളും - ഇൻഫർമേഷൻ കമ്മീഷണറുടെ ഓഫീസ് (ICO). ലിങ്ക്
[5] ക്രോസ്-വാലിഡേഷൻ: എസ്റ്റിമേറ്റർ പ്രകടനം വിലയിരുത്തൽ - scikit-learn ഉപയോക്തൃ ഗൈഡ്. ലിങ്ക്


ഔദ്യോഗിക AI അസിസ്റ്റന്റ് സ്റ്റോറിൽ ഏറ്റവും പുതിയ AI കണ്ടെത്തുക

ഞങ്ങളേക്കുറിച്ച്

ബ്ലോഗിലേക്ക് മടങ്ങുക