എന്താണ് ഒരു AI ഡാറ്റാസെറ്റ്?

നിങ്ങൾ AI സിസ്റ്റങ്ങൾ നിർമ്മിക്കുകയോ വാങ്ങുകയോ വിലയിരുത്തുകയോ ചെയ്യുകയാണെങ്കിൽ, നിങ്ങൾക്ക് ഒരു വഞ്ചനാപരമായ ലളിതമായ ചോദ്യം നേരിടേണ്ടിവരും & എന്താണ് ഒരു AI ഡാറ്റാസെറ്റ്, അത് ഇത്രയധികം പ്രാധാന്യമർഹിക്കുന്നത് എന്തുകൊണ്ട്? ചുരുക്കിപ്പറഞ്ഞാൽ: ഇത് ഇന്ധനം, പാചകപുസ്തകം, ചിലപ്പോൾ നിങ്ങളുടെ മോഡലിനുള്ള കോമ്പസ് എന്നിവയാണ്.

ഇതിനു ശേഷം നിങ്ങൾക്ക് വായിക്കാൻ ഇഷ്ടപ്പെട്ടേക്കാവുന്ന ലേഖനങ്ങൾ:

🔗 AI എങ്ങനെയാണ് ട്രെൻഡുകൾ പ്രവചിക്കുന്നത്
ഭാവി സംഭവങ്ങളും പെരുമാറ്റങ്ങളും പ്രവചിക്കുന്നതിനായി പാറ്റേണുകൾ AI എങ്ങനെ വിശകലനം ചെയ്യുന്നുവെന്ന് പര്യവേക്ഷണം ചെയ്യുന്നു.

🔗 AI പ്രകടനം എങ്ങനെ അളക്കാം
കൃത്യത, കാര്യക്ഷമത, മോഡൽ വിശ്വാസ്യത എന്നിവ വിലയിരുത്തുന്നതിനുള്ള അളവുകളും രീതികളും.

🔗 AI-യോട് എങ്ങനെ സംസാരിക്കാം
AI- ജനറേറ്റഡ് പ്രതികരണങ്ങൾ മെച്ചപ്പെടുത്തുന്നതിന് മികച്ച ഇടപെടലുകൾ രൂപപ്പെടുത്തുന്നതിനുള്ള മാർഗ്ഗനിർദ്ദേശം.

🔗 എന്താണ് AI പ്രോംപ്റ്റിംഗ്?
പ്രോംപ്റ്റുകൾ AI ഔട്ട്‌പുട്ടുകളെയും മൊത്തത്തിലുള്ള ആശയവിനിമയ ഗുണനിലവാരത്തെയും എങ്ങനെ രൂപപ്പെടുത്തുന്നു എന്നതിന്റെ അവലോകനം.

ഒരു AI ഡാറ്റാസെറ്റ് എന്താണ്? ഒരു ദ്രുത നിർവചനം 🧩

ഒരു AI ഡാറ്റാസെറ്റ് എന്താണ്? നിങ്ങളുടെ മോഡൽ പഠിക്കുന്നതോ വിലയിരുത്തപ്പെടുന്നതോ ആയ ഉദാഹരണങ്ങളുടെ ഒരു ശേഖരമാണിത് . ഓരോ ഉദാഹരണത്തിലും ഇവയുണ്ട്:

ഇൻപുട്ടുകൾ - ടെക്സ്റ്റ് സ്‌നിപ്പെറ്റുകൾ, ഇമേജുകൾ, ഓഡിയോ, ടാബുലാർ വരികൾ, സെൻസർ റീഡിംഗുകൾ, ഗ്രാഫുകൾ എന്നിവ പോലുള്ള മോഡൽ കാണുന്ന സവിശേഷതകൾ.
ലക്ഷ്യങ്ങൾ - വിഭാഗങ്ങൾ, സംഖ്യകൾ, വാചകത്തിന്റെ സ്പാനുകൾ, പ്രവർത്തനങ്ങൾ, അല്ലെങ്കിൽ ചിലപ്പോൾ ഒന്നുമില്ല എന്നിങ്ങനെ മോഡൽ പ്രവചിക്കേണ്ട ലേബലുകൾ അല്ലെങ്കിൽ ഫലങ്ങൾ.
മെറ്റാഡാറ്റ - ഉറവിടം, ശേഖരണ രീതി, ടൈംസ്റ്റാമ്പുകൾ, ലൈസൻസുകൾ, സമ്മത വിവരങ്ങൾ, ഗുണനിലവാരത്തെക്കുറിച്ചുള്ള കുറിപ്പുകൾ എന്നിവ പോലുള്ള സന്ദർഭം.

നിങ്ങളുടെ മോഡലിന് വേണ്ടി ശ്രദ്ധാപൂർവ്വം പായ്ക്ക് ചെയ്ത ഒരു ലഞ്ച്ബോക്സ് പോലെ ഇതിനെ സങ്കൽപ്പിക്കുക: ചേരുവകൾ, ലേബലുകൾ, പോഷകാഹാര വസ്തുതകൾ, അതെ, "ഈ ഭാഗം കഴിക്കരുത്" എന്ന് പറയുന്ന സ്റ്റിക്കി നോട്ട്. 🍱

മേൽനോട്ടത്തിലുള്ള ജോലികൾക്ക്, വ്യക്തമായ ലേബലുകളുമായി ജോടിയാക്കിയ ഇൻപുട്ടുകൾ നിങ്ങൾക്ക് കാണാൻ കഴിയും. മേൽനോട്ടമില്ലാത്ത ജോലികൾക്ക്, ലേബലുകളില്ലാത്ത ഇൻപുട്ടുകൾ നിങ്ങൾക്ക് കാണാൻ കഴിയും. ബലപ്പെടുത്തൽ പഠനത്തിന്, ഡാറ്റ പലപ്പോഴും അവസ്ഥകൾ, പ്രവർത്തനങ്ങൾ, റിവാർഡുകൾ എന്നിവയുള്ള എപ്പിസോഡുകളോ പാതകളോ പോലെ കാണപ്പെടുന്നു. മൾട്ടിമോഡൽ ജോലികൾക്ക്, ഉദാഹരണങ്ങൾക്ക് ഒരു റെക്കോർഡിൽ വാചകം + ചിത്രം + ഓഡിയോ സംയോജിപ്പിക്കാൻ കഴിയും. മനോഹരമായി തോന്നുന്നു; മിക്കവാറും പ്ലംബിംഗ് ആണ്.

സഹായകരമായ പ്രൈമറുകളും രീതികളും: ഡാറ്റാസെറ്റുകൾക്കായുള്ള ഡാറ്റാഷീറ്റുകൾ , ഉള്ളിലുള്ളത് എന്താണെന്നും അത് എങ്ങനെ ഉപയോഗിക്കണമെന്നും വിശദീകരിക്കാൻ ടീമുകളെ സഹായിക്കുന്നു [1], കൂടാതെ മോഡൽ കാർഡുകൾ മോഡൽ വശത്ത് ഡാറ്റ ഡോക്യുമെന്റേഷനെ പൂരകമാക്കുന്നു [2].

ഒരു നല്ല AI ഡാറ്റാസെറ്റ് ഉണ്ടാക്കുന്നത് എന്താണ് ✅

സത്യം പറഞ്ഞാൽ, ഡാറ്റാസെറ്റ് മോശമല്ലാത്തതുകൊണ്ടാണ് പല മോഡലുകളും വിജയിക്കുന്നത്. ഒരു "നല്ല" ഡാറ്റാസെറ്റ് ഇതാണ്:

ലാബ് സാഹചര്യങ്ങളുടെ മാത്രമല്ല, യഥാർത്ഥ ഉപയോഗ കേസുകളുടെയും പ്രതിനിധി .
കൃത്യമായി ലേബൽ ചെയ്തിരിക്കുന്നു. കരാറിന്റെ അളവുകൾ (ഉദാ. കപ്പ-ശൈലി അളവുകൾ) സ്ഥിരത പരിശോധിക്കാൻ സഹായിക്കുന്നു.
പൂർണ്ണവും സന്തുലിതവുമാണ് . അസന്തുലിതാവസ്ഥ സാധാരണമാണ്; അശ്രദ്ധ സാധാരണമല്ല.
വ്യക്തമായ ഉറവിടം, സമ്മതം, ലൈസൻസ്, അനുമതികൾ എന്നിവ രേഖപ്പെടുത്തിയിട്ടുണ്ട്. വിരസമായ രേഖകൾ ആവേശകരമായ കേസുകൾ തടയുന്നു.
ഉദ്ദേശിച്ച ഉപയോഗം, പരിധികൾ, അറിയപ്പെടുന്ന പരാജയ മോഡുകൾ എന്നിവ വ്യക്തമാക്കുന്ന ഡാറ്റ കാർഡുകളോ ഡാറ്റാഷീറ്റുകളോ ഉപയോഗിച്ച് നന്നായി രേഖപ്പെടുത്തിയിട്ടുണ്ട് [1]
നിയന്ത്രിക്കപ്പെടുന്നു . ഡാറ്റാസെറ്റ് പുനർനിർമ്മിക്കാൻ കഴിയുന്നില്ലെങ്കിൽ, നിങ്ങൾക്ക് മോഡൽ പുനർനിർമ്മിക്കാൻ കഴിയില്ല. NIST യുടെ AI റിസ്ക് മാനേജ്‌മെന്റ് ഫ്രെയിംവർക്കിൽ ഡാറ്റ ഗുണനിലവാരത്തെയും ഡോക്യുമെന്റേഷനെയും ഒന്നാംതരം ആശങ്കകളായി കണക്കാക്കുന്നു [3].

നിങ്ങൾ ചെയ്യുന്നതിനെ അടിസ്ഥാനമാക്കി AI ഡാറ്റാസെറ്റുകളുടെ തരങ്ങൾ 🧰

ടാസ്‌ക് പ്രകാരം

വർഗ്ഗീകരണം - ഉദാ, സ്പാം vs സ്പാം അല്ല, ഇമേജ് വിഭാഗങ്ങൾ.
റിഗ്രഷൻ - വില അല്ലെങ്കിൽ താപനില പോലുള്ള ഒരു തുടർച്ചയായ മൂല്യം പ്രവചിക്കുക.
ക്രമ ലേബലിംഗ് - പേരുള്ള എന്റിറ്റികൾ, സംസാരത്തിന്റെ ഭാഗങ്ങൾ.
തലമുറ - സംഗ്രഹം, വിവർത്തനം, ചിത്ര അടിക്കുറിപ്പ്.
ശുപാർശ - ഉപയോക്താവ്, ഇനം, ഇടപെടലുകൾ, സന്ദർഭം.
അനോമലി കണ്ടെത്തൽ - സമയ ശ്രേണിയിലോ ലോഗുകളിലോ ഉള്ള അപൂർവ സംഭവങ്ങൾ.
ബലപ്പെടുത്തൽ പഠനം - അവസ്ഥ, പ്രവൃത്തി, പ്രതിഫലം, അടുത്ത അവസ്ഥ ശ്രേണികൾ.
വീണ്ടെടുക്കൽ - രേഖകൾ, അന്വേഷണങ്ങൾ, പ്രസക്തിയുള്ള വിധിന്യായങ്ങൾ.

രീതി പ്രകാരം

ടാബുലാർ - പ്രായം, വരുമാനം, ചർൺ തുടങ്ങിയ കോളങ്ങൾ. വിലയിരുത്തൽ കുറവാണ്, വളരെ ഫലപ്രദമാണ്.
വാചകം - പ്രമാണങ്ങൾ, ചാറ്റുകൾ, കോഡ്, ഫോറം പോസ്റ്റുകൾ, ഉൽപ്പന്ന വിവരണങ്ങൾ.
ചിത്രങ്ങൾ - ഫോട്ടോകൾ, മെഡിക്കൽ സ്കാനുകൾ, സാറ്റലൈറ്റ് ടൈലുകൾ; മാസ്കുകൾ, ബോക്സുകൾ, കീപോയിന്റുകൾ എന്നിവയോടുകൂടിയോ അല്ലാതെയോ.
ഓഡിയോ - തരംഗരൂപങ്ങൾ, ട്രാൻസ്ക്രിപ്റ്റുകൾ, സ്പീക്കർ ടാഗുകൾ.
വീഡിയോ ഫ്രെയിമുകൾ, താൽക്കാലിക വ്യാഖ്യാനങ്ങൾ, പ്രവർത്തന ലേബലുകൾ.
ഗ്രാഫുകൾ - നോഡുകൾ, അരികുകൾ, ആട്രിബ്യൂട്ടുകൾ.
സമയ പരമ്പര - സെൻസറുകൾ, ധനകാര്യം, ടെലിമെട്രി.

മേൽനോട്ടത്തിൽ

ലേബൽ ചെയ്തിരിക്കുന്നത് (സ്വർണ്ണം, വെള്ളി, ഓട്ടോ-ലേബൽ ചെയ്തിരിക്കുന്നത്), ദുർബലമായി ലേബൽ ചെയ്തിരിക്കുന്നത്, ലേബൽ ചെയ്യാത്തത്, സിന്തറ്റിക്. സ്റ്റോറിൽ നിന്ന് വാങ്ങുന്ന കേക്ക് മിക്സ് നല്ലതായിരിക്കും - ബോക്സ് വായിച്ചാൽ.

ബോക്സിനുള്ളിൽ: ഘടന, വിഭജനങ്ങൾ, മെറ്റാഡാറ്റ 📦

ഒരു ശക്തമായ ഡാറ്റാസെറ്റിൽ സാധാരണയായി ഇവ ഉൾപ്പെടുന്നു:

സ്കീമ - ടൈപ്പ് ചെയ്ത ഫീൽഡുകൾ, യൂണിറ്റുകൾ, അനുവദനീയമായ മൂല്യങ്ങൾ, ശൂന്യമായ കൈകാര്യം ചെയ്യൽ.
വിഭജനങ്ങൾ - പരിശീലിപ്പിക്കുക, സാധൂകരിക്കുക, പരീക്ഷിക്കുക. പരിശോധനാ ഡാറ്റ അടച്ചുവയ്ക്കുക - അവസാനത്തെ ചോക്ലേറ്റ് കഷണം പോലെ അതിനെ പരിപാലിക്കുക.
സാമ്പിൾ പ്ലാൻ - ജനസംഖ്യയിൽ നിന്ന് നിങ്ങൾ എങ്ങനെയാണ് ഉദാഹരണങ്ങൾ എടുത്തത്; ഒരു പ്രദേശത്തു നിന്നോ ഉപകരണത്തിൽ നിന്നോ ഉള്ള സൗകര്യപ്രദമായ സാമ്പിളുകൾ ഒഴിവാക്കുക.
വർദ്ധനവുകൾ - ഫ്ലിപ്പുകൾ, വിളവെടുപ്പ്, ശബ്ദം, പരാവർത്തനങ്ങൾ, മുഖംമൂടികൾ. സത്യസന്ധത പുലർത്തുമ്പോൾ നല്ലത്; കാട്ടിൽ ഒരിക്കലും സംഭവിക്കാത്ത പാറ്റേണുകൾ അവർ കണ്ടുപിടിക്കുമ്പോൾ ദോഷകരമാണ്.
പതിപ്പിംഗ് - ഡെൽറ്റകളെ വിവരിക്കുന്ന ചേഞ്ച്‌ലോഗുകൾക്കൊപ്പം ഡാറ്റാസെറ്റ് v0.1, v0.2….
ലൈസൻസുകളും സമ്മതവും - ഉപയോഗ അവകാശങ്ങൾ, പുനർവിതരണം, ഇല്ലാതാക്കൽ പ്രവാഹങ്ങൾ. ദേശീയ ഡാറ്റ-പ്രൊട്ടക്ഷൻ റെഗുലേറ്റർമാർ (ഉദാഹരണത്തിന്, യുകെ ഐസിഒ) പ്രായോഗികവും നിയമാനുസൃതവുമായ പ്രോസസ്സിംഗ് ചെക്ക്‌ലിസ്റ്റുകൾ നൽകുന്നു [4].

ഡാറ്റാസെറ്റ് ജീവിതചക്രം, ഘട്ടം ഘട്ടമായി 🔁

തീരുമാനം നിർവചിക്കുക - മോഡൽ എന്ത് തീരുമാനിക്കും, അത് തെറ്റാണെങ്കിൽ എന്ത് സംഭവിക്കും.
സ്കോപ്പ് സവിശേഷതകളും ലേബലുകളും - അളക്കാവുന്നത്, നിരീക്ഷിക്കാവുന്നത്, ശേഖരിക്കാൻ ധാർമ്മികത.
ഉറവിട ഡാറ്റ - ഉപകരണങ്ങൾ, ലോഗുകൾ, സർവേകൾ, പൊതു കോർപ്പറേഷൻ, പങ്കാളികൾ.
സമ്മതവും നിയമപരവും - സ്വകാര്യതാ അറിയിപ്പുകൾ, ഒഴിവാക്കലുകൾ, ഡാറ്റ കുറയ്ക്കൽ. “എന്തുകൊണ്ട്”, “എങ്ങനെ” [4] എന്നിവയ്‌ക്കുള്ള റെഗുലേറ്റർ മാർഗ്ഗനിർദ്ദേശം കാണുക.
ശേഖരിക്കുകയും സംഭരിക്കുകയും ചെയ്യുക - സുരക്ഷിത സംഭരണം, റോൾ അധിഷ്ഠിത ആക്സസ്, PII കൈകാര്യം ചെയ്യൽ.
ലേബൽ - ആന്തരിക വ്യാഖ്യാനകർ, ക്രൗഡ്‌സോഴ്‌സിംഗ്, വിദഗ്ധർ; സ്വർണ്ണ ടാസ്‌ക്കുകൾ, ഓഡിറ്റുകൾ, കരാർ മെട്രിക്‌സുകൾ എന്നിവ ഉപയോഗിച്ച് ഗുണനിലവാരം കൈകാര്യം ചെയ്യുക.
വൃത്തിയാക്കി സാധാരണവൽക്കരിക്കുക - ഡ്യൂപ്പ് ചെയ്യുക, നഷ്ടം കൈകാര്യം ചെയ്യുക, യൂണിറ്റുകൾ സ്റ്റാൻഡേർഡ് ചെയ്യുക, എൻകോഡിംഗ് ശരിയാക്കുക. വിരസമായ, വീരോചിതമായ പ്രവൃത്തി.
വിഭജിക്കുകയും സാധൂകരിക്കുകയും ചെയ്യുക - ചോർച്ച തടയുക; പ്രസക്തമായിടത്ത് വർഗ്ഗീകരിക്കുക; താൽക്കാലിക ഡാറ്റയ്ക്കായി സമയബോധമുള്ള വിഭജനങ്ങൾ തിരഞ്ഞെടുക്കുക; ശക്തമായ എസ്റ്റിമേറ്റുകൾക്കായി ശ്രദ്ധാപൂർവ്വം ക്രോസ്-വാലിഡേഷൻ ഉപയോഗിക്കുക [5].
ഡോക്യുമെന്റ് - ഡാറ്റാഷീറ്റ് അല്ലെങ്കിൽ ഡാറ്റ കാർഡ്; ഉദ്ദേശിച്ച ഉപയോഗം, മുന്നറിയിപ്പുകൾ, പരിമിതികൾ [1].
നിരീക്ഷിക്കുകയും അപ്ഡേറ്റ് ചെയ്യുകയും ചെയ്യുക - ഡ്രിഫ്റ്റ് ഡിറ്റക്ഷൻ, റിഫ്രഷ് കാഡൻസ്, സൺസെറ്റ് പ്ലാനുകൾ. NIST യുടെ AI RMF ഈ തുടർച്ചയായ ഗവേണൻസ് ലൂപ്പിനെ രൂപപ്പെടുത്തുന്നു [3].

ദ്രുതവും യഥാർത്ഥവുമായ നുറുങ്ങ്: ടീമുകൾ പലപ്പോഴും "ഡെമോയിൽ വിജയിക്കുന്നു", പക്ഷേ അവരുടെ ഡാറ്റാസെറ്റ് നിശബ്ദമായി നീങ്ങുന്നതിനാൽ ഉൽ‌പാദനത്തിൽ ഇടറിവീഴുന്നു - പുതിയ ഉൽപ്പന്ന ലൈനുകൾ, പേരുമാറ്റിയ ഫീൽഡ് അല്ലെങ്കിൽ മാറിയ നയം. ലളിതമായ ഒരു ചേഞ്ച്‌ലോഗ് + ആനുകാലിക റീ-അനോട്ടേഷൻ പാസ് ആ വേദനയുടെ ഭൂരിഭാഗവും ഒഴിവാക്കുന്നു.

ഡാറ്റ ഗുണനിലവാരവും വിലയിരുത്തലും - തോന്നുന്നത്ര വിരസമല്ല 🧪

ഗുണനിലവാരം ബഹുമുഖമാണ്:

കൃത്യത - ലേബലുകൾ ശരിയാണോ? കരാർ മെട്രിക്സും ആനുകാലിക വിധിനിർണ്ണയവും ഉപയോഗിക്കുക.
പൂർണ്ണത - നിങ്ങൾക്ക് ശരിക്കും ആവശ്യമുള്ള മേഖലകളും ക്ലാസുകളും ഉൾക്കൊള്ളുക.
സ്ഥിരത - സമാന ഇൻപുട്ടുകൾക്ക് പരസ്പരവിരുദ്ധമായ ലേബലുകൾ ഒഴിവാക്കുക.
സമയബന്ധിതത - പഴകിയ ഡാറ്റ അനുമാനങ്ങളെ ഫോസിലുകൾ ആക്കി മാറ്റുന്നു.
ന്യായവും പക്ഷപാതവും - ജനസംഖ്യാശാസ്‌ത്രം, ഭാഷകൾ, ഉപകരണങ്ങൾ, പരിതസ്ഥിതികൾ എന്നിവയിലുടനീളം കവറേജ്; വിവരണാത്മക ഓഡിറ്റുകളിൽ നിന്ന് ആരംഭിക്കുക, തുടർന്ന് സ്ട്രെസ് ടെസ്റ്റുകൾ. ഡോക്യുമെന്റേഷൻ-ആദ്യ രീതികൾ (ഡാറ്റാഷീറ്റുകൾ, മോഡൽ കാർഡുകൾ) ഈ പരിശോധനകളെ ദൃശ്യമാക്കുന്നു [1], കൂടാതെ ഗവേണൻസ് ഫ്രെയിംവർക്കുകൾ അവയെ അപകടസാധ്യത നിയന്ത്രണങ്ങളായി ഊന്നിപ്പറയുന്നു [3].

മോഡൽ മൂല്യനിർണ്ണയത്തിനായി, ശരിയായ സ്പ്ലിറ്റുകൾ , ശരാശരി മെട്രിക്സും ഏറ്റവും മോശം ഗ്രൂപ്പ് മെട്രിക്സും ട്രാക്ക് ചെയ്യുക. തിളങ്ങുന്ന ശരാശരി ഒരു ഗർത്തം മറയ്ക്കാൻ കഴിയും. ക്രോസ്-വാലിഡേഷൻ അടിസ്ഥാനകാര്യങ്ങൾ സ്റ്റാൻഡേർഡ് ML ടൂളിംഗ് ഡോക്സുകളിൽ നന്നായി ഉൾപ്പെടുത്തിയിട്ടുണ്ട് [5].

ധാർമ്മികത, സ്വകാര്യത, ലൈസൻസിംഗ് - സംരക്ഷണ ഭിത്തികൾ 🛡️

നൈതിക ഡാറ്റ ഒരു വൈബ് അല്ല, അതൊരു പ്രക്രിയയാണ്:

സമ്മതത്തിന്റെയും ഉദ്ദേശ്യത്തിന്റെയും പരിമിതി - ഉപയോഗങ്ങളെയും നിയമപരമായ അടിസ്ഥാനങ്ങളെയും കുറിച്ച് വ്യക്തമായി പറയുക [4].
PII കൈകാര്യം ചെയ്യൽ - ഉചിതമെങ്കിൽ ചെറുതാക്കുക, വ്യാജനാമം ഉപയോഗിക്കുക അല്ലെങ്കിൽ അജ്ഞാതമാക്കുക; അപകടസാധ്യതകൾ കൂടുതലായിരിക്കുമ്പോൾ സ്വകാര്യത വർദ്ധിപ്പിക്കുന്ന സാങ്കേതികവിദ്യ പരിഗണിക്കുക.
ആട്രിബ്യൂഷനും ലൈസൻസുകളും - പങ്കിടൽ-സമാനവും വാണിജ്യ-ഉപയോഗ നിയന്ത്രണങ്ങളും പാലിക്കുക.
പക്ഷപാതവും ദോഷവും - വ്യാജ പരസ്പര ബന്ധങ്ങൾക്കായുള്ള ഓഡിറ്റ് (“പകൽ വെളിച്ചം = സുരക്ഷിതം” രാത്രിയിൽ വളരെ ആശയക്കുഴപ്പത്തിലാകും).
പരിഹാരം - അഭ്യർത്ഥിച്ചാൽ ഡാറ്റ എങ്ങനെ നീക്കം ചെയ്യാമെന്നും അതിൽ പരിശീലനം ലഭിച്ച മോഡലുകൾ എങ്ങനെ തിരികെ കൊണ്ടുവരാമെന്നും അറിയുക (ഇത് നിങ്ങളുടെ ഡാറ്റാഷീറ്റിൽ രേഖപ്പെടുത്തുക) [1].

എത്ര വലുതാണ് വേണ്ടത്? വലുപ്പവും സിഗ്നൽ-ടു-നോയിസും 📏

പ്രധാന നിയമം: കൂടുതൽ ഉദാഹരണങ്ങൾ പ്രസക്തമാണെങ്കിൽ, മിക്കവാറും തനിപ്പകർപ്പുകളല്ലെങ്കിൽ സഹായിക്കും . എന്നാൽ ചിലപ്പോൾ നിങ്ങൾക്ക് ധാരാളം വൃത്തികെട്ട സാമ്പിളുകളേക്കാൾ കുറച്ച്, വൃത്തിയുള്ള, മികച്ച ലേബൽ ചെയ്ത സാമ്പിളുകൾ ഉണ്ടായിരിക്കുന്നതാണ് നല്ലത്

ശ്രദ്ധിക്കുക:

പഠന വക്രങ്ങൾ - നിങ്ങൾ ഡാറ്റാ ബൗണ്ട് ആണോ അതോ മോഡൽ ബൗണ്ട് ആണോ എന്ന് കാണാൻ പ്ലോട്ട് പ്രകടനം vs. സാമ്പിൾ വലുപ്പം.
ലോങ്-ടെയിൽ കവറേജ് - അപൂർവവും എന്നാൽ നിർണായകവുമായ ക്ലാസുകൾക്ക് പലപ്പോഴും കൂടുതൽ ബൾക്ക് മാത്രമല്ല, ലക്ഷ്യബോധമുള്ള ശേഖരണം ആവശ്യമാണ്.
ശബ്ദം ലേബൽ ചെയ്യുക - അളക്കുക, തുടർന്ന് കുറയ്ക്കുക; അൽപ്പം സഹിക്കാവുന്നതാണ്, വേലിയേറ്റം സഹിക്കാൻ പറ്റില്ല.
വിതരണ മാറ്റം - ഒരു മേഖലയിൽ നിന്നോ ചാനലിൽ നിന്നോ ഉള്ള പരിശീലന ഡാറ്റ മറ്റൊന്നിലേക്ക് സാമാന്യവൽക്കരിക്കണമെന്നില്ല; ലക്ഷ്യം പോലുള്ള പരീക്ഷണ ഡാറ്റയിൽ സാധൂകരിക്കുക [5].

സംശയമുണ്ടെങ്കിൽ, ചെറിയ പരീക്ഷണങ്ങൾ നടത്തി വികസിപ്പിക്കുക. അത് താളിക്കുക-ചേർക്കുക, രുചിക്കുക, ക്രമീകരിക്കുക, ആവർത്തിക്കുക എന്നിവ പോലെയാണ്.

ഡാറ്റാസെറ്റുകൾ എവിടെ കണ്ടെത്താനും കൈകാര്യം ചെയ്യാനും കഴിയും 🗂️

ജനപ്രിയ ഉറവിടങ്ങളും ഉപകരണങ്ങളും (ഇപ്പോൾ URL-കൾ ഓർമ്മിക്കേണ്ട ആവശ്യമില്ല):

ഹഗ്ഗിംഗ് ഫേസ് ഡാറ്റാസെറ്റുകൾ - പ്രോഗ്രമാറ്റിക് ലോഡിംഗ്, പ്രോസസ്സിംഗ്, പങ്കിടൽ.
ഗൂഗിൾ ഡാറ്റാസെറ്റ് തിരയൽ - വെബിലുടനീളം മെറ്റാ-തിരയൽ.
UCI ML റിപ്പോസിറ്ററി - അടിസ്ഥാന പാഠങ്ങൾക്കും അധ്യാപനത്തിനുമായി ക്യൂറേറ്റ് ചെയ്ത ക്ലാസിക്കുകൾ.
OpenML - ടാസ്‌ക്കുകൾ + ഡാറ്റാസെറ്റുകൾ + ഉറവിടത്തോടെ പ്രവർത്തിക്കുന്നു.
AWS ഓപ്പൺ ഡാറ്റ / ഗൂഗിൾ ക്ലൗഡ് പബ്ലിക് ഡാറ്റാസെറ്റുകൾ - ഹോസ്റ്റ് ചെയ്‌ത, വലിയ തോതിലുള്ള കോർപ്പറ.

പ്രോ ടിപ്പ്: ഡൗൺലോഡ് ചെയ്യരുത്. ലൈസൻസും ഡാറ്റാഷീറ്റും വായിക്കുക, തുടർന്ന് പതിപ്പ് നമ്പറുകളും ഉറവിടവും ഉപയോഗിച്ച് നിങ്ങളുടെ സ്വന്തം പകർപ്പ് രേഖപ്പെടുത്തുക [1].

ലേബലിംഗും വ്യാഖ്യാനവും - സത്യം ചർച്ച ചെയ്യപ്പെടുന്നിടത്ത് ✍️

നിങ്ങളുടെ സൈദ്ധാന്തിക ലേബൽ ഗൈഡ് യാഥാർത്ഥ്യവുമായി മല്ലിടുന്ന ഇടമാണ് വ്യാഖ്യാനം:

ടാസ്‌ക് ഡിസൈൻ - ഉദാഹരണങ്ങളും എതിർ ഉദാഹരണങ്ങളും ഉപയോഗിച്ച് വ്യക്തമായ നിർദ്ദേശങ്ങൾ എഴുതുക.
അനോട്ടേറ്റർ പരിശീലനം - സ്വർണ്ണ ഉത്തരങ്ങളുള്ള സീഡ്, കാലിബ്രേഷൻ റൗണ്ടുകൾ നടത്തുക.
ഗുണനിലവാര നിയന്ത്രണം - കരാർ അളവുകൾ, സമവായ സംവിധാനങ്ങൾ, ആനുകാലിക ഓഡിറ്റുകൾ എന്നിവ ഉപയോഗിക്കുക.
ടൂളിംഗ് - സ്കീമ വാലിഡേഷനും അവലോകന ക്യൂകളും നടപ്പിലാക്കുന്ന ഉപകരണങ്ങൾ തിരഞ്ഞെടുക്കുക; സ്പ്രെഡ്ഷീറ്റുകൾക്ക് പോലും നിയമങ്ങളും പരിശോധനകളും ഉപയോഗിച്ച് പ്രവർത്തിക്കാൻ കഴിയും.
ഫീഡ്‌ബാക്ക് ലൂപ്പുകൾ - ഗൈഡ് പരിഷ്കരിക്കുന്നതിന് അനോട്ടേറ്റർ കുറിപ്പുകളും മോഡൽ തെറ്റുകളും പകർത്തുക.

കോമയുടെ കാര്യത്തിൽ വിയോജിപ്പുള്ള മൂന്ന് സുഹൃത്തുക്കളുമായി ഒരു നിഘണ്ടു എഡിറ്റ് ചെയ്യുന്നത് പോലെ തോന്നുന്നുവെങ്കിൽ... അത് സാധാരണമാണ്. 🙃

ഡാറ്റ ഡോക്യുമെന്റേഷൻ - വ്യക്തമായ അറിവ് 📒

ഒരു ഭാരം കുറഞ്ഞ ഡാറ്റാഷീറ്റോ ഡാറ്റ കാർഡോ ഇനിപ്പറയുന്നവ ഉൾക്കൊള്ളണം:

ആരാണ് അത് ശേഖരിച്ചത്, എങ്ങനെ, എന്തുകൊണ്ട്.
ഉദ്ദേശിച്ച ഉപയോഗങ്ങളും പരിധിക്ക് പുറത്തുള്ള ഉപയോഗങ്ങളും.
അറിയപ്പെടുന്ന വിടവുകൾ, പക്ഷപാതങ്ങൾ, പരാജയ രീതികൾ.
ലേബലിംഗ് പ്രോട്ടോക്കോൾ, QA ഘട്ടങ്ങൾ, കരാറിന്റെ സ്ഥിതിവിവരക്കണക്കുകൾ.
ലൈസൻസ്, സമ്മതം, പ്രശ്നങ്ങൾക്കുള്ള കോൺടാക്റ്റ്, നീക്കം ചെയ്യൽ പ്രക്രിയ.

ടെംപ്ലേറ്റുകളും ഉദാഹരണങ്ങളും: ഡാറ്റാസെറ്റുകൾക്കും മോഡൽ കാർഡുകൾക്കുമുള്ള ഡാറ്റാഷീറ്റുകൾ വ്യാപകമായി ഉപയോഗിക്കപ്പെടുന്ന ആരംഭ പോയിന്റുകളാണ് [1].

നിർമ്മിക്കുമ്പോൾ എഴുതുക, അതിനു ശേഷമല്ല. മെമ്മറി ഒരു ഫ്ലേക്കി സ്റ്റോറേജ് മീഡിയമാണ്.

താരതമ്യ പട്ടിക - AI ഡാറ്റാസെറ്റുകൾ കണ്ടെത്താനോ ഹോസ്റ്റ് ചെയ്യാനോ ഉള്ള സ്ഥലങ്ങൾ 📊

അതെ, ഇത് അൽപ്പം അഭിപ്രായവ്യത്യാസമുള്ളതാണ്. വാക്കുകൾ മനഃപൂർവ്വം അല്പം അസമമാണ്. കുഴപ്പമില്ല.

ഉപകരണം / റിപ്പോ	പ്രേക്ഷകർ	വില	എന്തുകൊണ്ട് ഇത് പ്രായോഗികമായി പ്രവർത്തിക്കുന്നു
ഹഗ്ഗിംഗ് ഫെയ്‌സ് ഡാറ്റാസെറ്റുകൾ	ഗവേഷകർ, എഞ്ചിനീയർമാർ	ഫ്രീ-ടയർ	വേഗത്തിലുള്ള ലോഡിംഗ്, സ്ട്രീമിംഗ്, കമ്മ്യൂണിറ്റി സ്ക്രിപ്റ്റുകൾ; മികച്ച ഡോക്യുമെന്റുകൾ; പതിപ്പ് ചെയ്ത ഡാറ്റാസെറ്റുകൾ
Google ഡാറ്റാസെറ്റ് തിരയൽ	എല്ലാവരും	സൗ ജന്യം	വിശാലമായ ഉപരിതല വിസ്തീർണ്ണം; കണ്ടെത്തലിന് മികച്ചത്; ചിലപ്പോൾ പൊരുത്തമില്ലാത്ത മെറ്റാഡാറ്റ.
UCI ML റിപ്പോസിറ്ററി	വിദ്യാർത്ഥികൾ, അധ്യാപകർ	സൗ ജന്യം	ക്യുറേറ്റ് ചെയ്ത ക്ലാസിക്കുകൾ; ചെറുതെങ്കിലും വൃത്തിയുള്ളത്; അടിസ്ഥാനരേഖകൾക്കും അധ്യാപനത്തിനും നല്ലതാണ്
ഓപ്പൺഎംഎൽ	റിപ്രോ ഗവേഷകർ	സൗ ജന്യം	ടാസ്‌ക്കുകൾ + ഡാറ്റാസെറ്റുകൾ + ഒരുമിച്ച് പ്രവർത്തിക്കുന്നു; നല്ല ഉത്ഭവ പാതകൾ
AWS ഓപ്പൺ ഡാറ്റ രജിസ്ട്രി	ഡാറ്റ എഞ്ചിനീയർമാർ	മിക്കവാറും സൗജന്യം	പെറ്റാബൈറ്റ്-സ്കെയിൽ ഹോസ്റ്റിംഗ്; ക്ലൗഡ്-നേറ്റീവ് ആക്സസ്; എഗ്രസ് ചെലവുകൾ നിരീക്ഷിക്കുക
കഗിൾ ഡാറ്റാസെറ്റുകൾ	പ്രാക്ടീഷണർമാർ	സൗ ജന്യം	എളുപ്പത്തിലുള്ള പങ്കിടൽ, സ്ക്രിപ്റ്റുകൾ, മത്സരങ്ങൾ; കമ്മ്യൂണിറ്റി സിഗ്നലുകൾ ശബ്ദം ഫിൽട്ടർ ചെയ്യാൻ സഹായിക്കുന്നു.
Google ക്ലൗഡ് പബ്ലിക് ഡാറ്റാസെറ്റുകൾ	വിശകലന വിദഗ്ധർ, ടീമുകൾ	സൗജന്യം + ക്ലൗഡ്	കമ്പ്യൂട്ടിന് സമീപം ഹോസ്റ്റ് ചെയ്‌തു; BigQuery സംയോജനം; ബില്ലിംഗിൽ ശ്രദ്ധിക്കുക.
അക്കാദമിക് പോർട്ടലുകൾ, ലാബുകൾ	നിച് വിദഗ്ധർ	വ്യത്യാസപ്പെടുന്നു	വളരെ പ്രത്യേകതയുള്ളത്; ചിലപ്പോൾ വേണ്ടത്ര രേഖപ്പെടുത്താത്തത് - ഇപ്പോഴും വേട്ടയാടാൻ യോഗ്യമാണ്

(ഒരു സെൽ സംഭാഷണാത്മകമായി തോന്നുകയാണെങ്കിൽ, അത് മനഃപൂർവമാണ്.)

നിങ്ങളുടെ ആദ്യത്തേത് നിർമ്മിക്കുന്നു - ഒരു പ്രായോഗിക സ്റ്റാർട്ടർ കിറ്റ് 🛠️

"എന്താണ് ഒരു AI ഡാറ്റാസെറ്റ്" എന്നതിൽ നിന്ന് "ഞാൻ ഒന്ന് ഉണ്ടാക്കി, അത് പ്രവർത്തിക്കുന്നു" എന്നതിലേക്ക് മാറാൻ നിങ്ങൾ ആഗ്രഹിക്കുന്നു. ഈ മിനിമൽ പാത്ത് പരീക്ഷിക്കുക:

തീരുമാനവും മെട്രിക്കും എഴുതുക - ഉദാഹരണത്തിന്, ശരിയായ ടീമിനെ പ്രവചിച്ചുകൊണ്ട് വരുന്ന പിന്തുണ വഴിതെറ്റലുകൾ കുറയ്ക്കുക. മെട്രിക്: മാക്രോ-F1.
5 പോസിറ്റീവ്, 5 നെഗറ്റീവ് ഉദാഹരണങ്ങൾ പട്ടികപ്പെടുത്തുക - യഥാർത്ഥ ടിക്കറ്റുകളുടെ സാമ്പിൾ; കെട്ടിച്ചമയ്ക്കരുത്.
ഒരു ലേബൽ ഗൈഡ് ഡ്രാഫ്റ്റ് ചെയ്യുക - ഒരു പേജ്; വ്യക്തമായ ഉൾപ്പെടുത്തൽ/ഒഴിവാക്കൽ നിയമങ്ങൾ.
ഒരു ചെറിയ, യഥാർത്ഥ സാമ്പിൾ ശേഖരിക്കുക - വിഭാഗങ്ങളിലായി ഏതാനും നൂറുകണക്കിന് ടിക്കറ്റുകൾ; നിങ്ങൾക്ക് ആവശ്യമില്ലാത്ത PII നീക്കം ചെയ്യുക.
ചോർച്ച പരിശോധനകൾ ഉപയോഗിച്ച് വിഭജിക്കുക - ഒരേ ഉപഭോക്താവിൽ നിന്നുള്ള എല്ലാ സന്ദേശങ്ങളും ഒരു വിഭജനത്തിൽ സൂക്ഷിക്കുക; വേരിയൻസ് കണക്കാക്കാൻ ക്രോസ്-വാലിഡേഷൻ ഉപയോഗിക്കുക [5].
ഉപയോഗിച്ച് QA വ്യാഖ്യാനിക്കുക ; അഭിപ്രായവ്യത്യാസങ്ങൾ പരിഹരിക്കുക; ഗൈഡ് അപ്ഡേറ്റ് ചെയ്യുക.
ഒരു ലളിതമായ അടിസ്ഥാനരേഖ പരിശീലിപ്പിക്കുക - ആദ്യം ലോജിസ്റ്റിക്സ് (ഉദാ: ലീനിയർ മോഡലുകൾ അല്ലെങ്കിൽ കോംപാക്റ്റ് ട്രാൻസ്ഫോർമറുകൾ). മെഡലുകൾ നേടുകയല്ല, ഡാറ്റ പരിശോധിക്കുക എന്നതാണ് ലക്ഷ്യം.
പിശകുകൾ അവലോകനം ചെയ്യുക - എവിടെയാണ് അത് പരാജയപ്പെടുന്നത്, എന്തുകൊണ്ട്; മോഡൽ മാത്രമല്ല, ഡാറ്റാസെറ്റും അപ്ഡേറ്റ് ചെയ്യുക.
ഡോക്യുമെന്റ് - ചെറിയ ഡാറ്റാഷീറ്റ്: ഉറവിടം, ലേബൽ ഗൈഡ് ലിങ്ക്, വിഭജനങ്ങൾ, അറിയപ്പെടുന്ന പരിധികൾ, ലൈസൻസ് [1].
പ്ലാൻ പുതുക്കൽ - പുതിയ വിഭാഗങ്ങൾ, പുതിയ സ്ലാംഗ്, പുതിയ ഡൊമെയ്‌നുകൾ വരുന്നു; ചെറുതും ഇടയ്ക്കിടെയുള്ളതുമായ അപ്‌ഡേറ്റുകൾ ഷെഡ്യൂൾ ചെയ്യുക [3].

ആയിരം ഹോട്ട് ടേക്കുകളിൽ നിന്ന് പഠിക്കുന്നതിനേക്കാൾ കൂടുതൽ കാര്യങ്ങൾ ഈ ലൂപ്പിൽ നിന്ന് നിങ്ങൾക്ക് പഠിക്കാൻ കഴിയും. കൂടാതെ, ബാക്കപ്പുകൾ സൂക്ഷിക്കുക. ദയവായി.

ടീമുകളിൽ ഒളിഞ്ഞുനോക്കുന്ന സാധാരണ പിഴവുകൾ 🪤

ഡാറ്റ ചോർച്ച - ഉത്തരം സവിശേഷതകളിലേക്ക് വഴുതിവീഴുന്നു (ഉദാഹരണത്തിന്, ഫലങ്ങൾ പ്രവചിക്കാൻ പോസ്റ്റ്-റെസല്യൂഷൻ ഫീൽഡുകൾ ഉപയോഗിക്കുന്നു). വഞ്ചന പോലെ തോന്നുന്നു, കാരണം അത് അങ്ങനെയാണ്.
ആഴം കുറഞ്ഞ വൈവിധ്യം - ഒരു ഭൂമിശാസ്ത്രമോ ഉപകരണമോ ആഗോളമായി വേഷംമാറി നടക്കുന്നു. പരീക്ഷണങ്ങൾ പ്ലോട്ടിന്റെ വഴിത്തിരിവ് വെളിപ്പെടുത്തും.
ലേബൽ ഡ്രിഫ്റ്റ് - മാനദണ്ഡങ്ങൾ കാലക്രമേണ മാറുന്നു, പക്ഷേ ലേബൽ ഗൈഡ് മാറുന്നില്ല. നിങ്ങളുടെ ഓൺടോളജി രേഖപ്പെടുത്തുകയും പതിപ്പ് നൽകുകയും ചെയ്യുക.
വ്യക്തമാക്കിയിട്ടില്ലാത്ത ലക്ഷ്യങ്ങൾ - നിങ്ങൾക്ക് ഒരു മോശം പ്രവചനം നിർവചിക്കാൻ കഴിയുന്നില്ലെങ്കിൽ, നിങ്ങളുടെ ഡാറ്റയും അങ്ങനെ ചെയ്യില്ല.
വൃത്തികെട്ട ലൈസൻസുകൾ - ഇപ്പോൾ റദ്ദാക്കുകയും പിന്നീട് ക്ഷമാപണം നടത്തുകയും ചെയ്യുന്നത് ഒരു തന്ത്രമല്ല.
ഓവർ-ഓഗ്മെന്റേഷൻ - അയഥാർത്ഥമായ പുരാവസ്തുക്കൾ പഠിപ്പിക്കുന്ന സിന്തറ്റിക് ഡാറ്റ, പ്ലാസ്റ്റിക് പഴങ്ങളിൽ ഒരു പാചകക്കാരനെ പരിശീലിപ്പിക്കുന്നത് പോലെ.

ആ വാക്യത്തെക്കുറിച്ചുള്ള പെട്ടെന്നുള്ള പതിവ് ചോദ്യങ്ങൾ ❓

“ഒരു AI ഡാറ്റാസെറ്റ് എന്താണ്?” എന്നത് ഒരു നിർവചന കാര്യമാണോ? മിക്കവാറും, എന്നാൽ മോഡലുകളെ വിശ്വസനീയമാക്കുന്ന വിരസമായ ബിറ്റുകളെക്കുറിച്ച് നിങ്ങൾ ശ്രദ്ധിക്കുന്നു എന്നതിന്റെ സൂചന കൂടിയാണിത്.
എനിക്ക് എപ്പോഴും ലേബലുകൾ ആവശ്യമുണ്ടോ? ഇല്ല. മേൽനോട്ടമില്ലാത്ത, സ്വയം മേൽനോട്ടത്തിലുള്ള, RL സജ്ജീകരണങ്ങൾ പലപ്പോഴും വ്യക്തമായ ലേബലുകൾ ഒഴിവാക്കാറുണ്ട്, പക്ഷേ ക്യൂറേഷൻ ഇപ്പോഴും പ്രധാനമാണ്.
പൊതു ഡാറ്റ എനിക്ക് എന്തിനും ഉപയോഗിക്കാമോ? ഇല്ല. ലൈസൻസുകൾ, പ്ലാറ്റ്‌ഫോം നിബന്ധനകൾ, സ്വകാര്യതാ ബാധ്യതകൾ എന്നിവയെ ബഹുമാനിക്കുക [4].
വലുതോ മികച്ചതോ? രണ്ടും, അനുയോജ്യം. തിരഞ്ഞെടുക്കണമെങ്കിൽ, ആദ്യം നല്ലത് തിരഞ്ഞെടുക്കുക.

അന്തിമ കുറിപ്പുകൾ - നിങ്ങൾക്ക് സ്ക്രീൻഷോട്ട് ചെയ്യാൻ കഴിയുന്നത് 📌

ഒരു AI ഡാറ്റാസെറ്റ് എന്താണെന്ന് ആരെങ്കിലും നിങ്ങളോട് ചോദിച്ചാൽ , പറയുക: ഇത് ഒരു മോഡലിനെ പഠിപ്പിക്കുകയും പരീക്ഷിക്കുകയും ചെയ്യുന്ന ഉദാഹരണങ്ങളുടെ ഒരു ക്യൂറേറ്റഡ്, ഡോക്യുമെന്റഡ് ശേഖരമാണ്, ആളുകൾക്ക് ഫലങ്ങളിൽ വിശ്വസിക്കാൻ കഴിയുന്ന തരത്തിൽ ഗവേണൻസിൽ പൊതിഞ്ഞിരിക്കുന്നു. മികച്ച ഡാറ്റാസെറ്റുകൾ പ്രതിനിധീകരിക്കുന്നതും, നന്നായി ലേബൽ ചെയ്തതും, നിയമപരമായി വൃത്തിയുള്ളതും, തുടർച്ചയായി പരിപാലിക്കപ്പെടുന്നതുമാണ്. ബാക്കിയുള്ളവ ഘടന, വിഭജനങ്ങൾ, മോഡലുകളെ ട്രാഫിക്കിലേക്ക് അലഞ്ഞുതിരിയുന്നത് തടയുന്ന എല്ലാ ചെറിയ ഗാർഡ്‌റെയിലുകളെയും കുറിച്ചുള്ള വിശദാംശങ്ങൾ-പ്രധാനമായ വിശദാംശങ്ങൾ എന്നിവയാണ്. ചിലപ്പോൾ ഈ പ്രക്രിയ സ്പ്രെഡ്‌ഷീറ്റുകൾ ഉപയോഗിച്ച് പൂന്തോട്ടപരിപാലനം പോലെയാണ് തോന്നുന്നത്; ചിലപ്പോൾ പിക്‌സലുകൾ കൂട്ടത്തോടെ സൂക്ഷിക്കുന്നത് പോലെ. എന്തായാലും, ഡാറ്റയിൽ നിക്ഷേപിക്കുക, നിങ്ങളുടെ മോഡലുകൾ അത്ര വിചിത്രമായി പെരുമാറില്ല. 🌱🤖

അവലംബം

[1] ഡാറ്റാസെറ്റുകൾക്കായുള്ള ഡാറ്റാഷീറ്റുകൾ - ഗെബ്രു തുടങ്ങിയവർ, arXiv. ലിങ്ക്
[2] മോഡൽ റിപ്പോർട്ടിംഗിനുള്ള മോഡൽ കാർഡുകൾ - മിച്ചൽ തുടങ്ങിയവർ, arXiv. ലിങ്ക്
[3] NIST ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് റിസ്ക് മാനേജ്മെന്റ് ഫ്രെയിംവർക്ക് (AI RMF 1.0). ലിങ്ക്
[4] യുകെ GDPR മാർഗ്ഗനിർദ്ദേശവും ഉറവിടങ്ങളും - ഇൻഫർമേഷൻ കമ്മീഷണറുടെ ഓഫീസ് (ICO). ലിങ്ക്
[5] ക്രോസ്-വാലിഡേഷൻ: എസ്റ്റിമേറ്റർ പ്രകടനം വിലയിരുത്തൽ - scikit-learn ഉപയോക്തൃ ഗൈഡ്. ലിങ്ക്

ഔദ്യോഗിക AI അസിസ്റ്റന്റ് സ്റ്റോറിൽ ഏറ്റവും പുതിയ AI കണ്ടെത്തുക

ഞങ്ങളേക്കുറിച്ച്

ബ്ലോഗിലേക്ക് മടങ്ങുക