AI പ്രകടനം എങ്ങനെ അളക്കാം?

ഒരു നോട്ട്ബുക്കിൽ അമ്പരപ്പിക്കുന്ന ഒരു മോഡൽ നിങ്ങൾ എപ്പോഴെങ്കിലും ഷിപ്പ് ചെയ്‌തിട്ടുണ്ടെങ്കിൽ, ഉൽപ്പാദനത്തിൽ ഇടറിപ്പോയാൽ, നിങ്ങൾക്ക് ഇതിനകം തന്നെ രഹസ്യം അറിയാം: AI പ്രകടനം എങ്ങനെ അളക്കാം എന്നത് ഒരു മാന്ത്രിക മെട്രിക് അല്ല. ഇത് യഥാർത്ഥ ലോക ലക്ഷ്യങ്ങളുമായി ബന്ധപ്പെട്ട പരിശോധനകളുടെ ഒരു സംവിധാനമാണ്. കൃത്യത മനോഹരമാണ്. വിശ്വാസ്യത, സുരക്ഷ, ബിസിനസ്സ് സ്വാധീനം എന്നിവ മികച്ചതാണ്.

ഇതിനു ശേഷം നിങ്ങൾക്ക് വായിക്കാൻ ഇഷ്ടപ്പെട്ടേക്കാവുന്ന ലേഖനങ്ങൾ:

🔗 AI-യോട് എങ്ങനെ സംസാരിക്കാം
സ്ഥിരമായി മികച്ച ഫലങ്ങൾക്കായി AI-യുമായി ഫലപ്രദമായി ആശയവിനിമയം നടത്തുന്നതിനുള്ള വഴികാട്ടി.

🔗 എന്താണ് AI പ്രോംപ്റ്റിംഗ്?
പ്രോംപ്റ്റുകൾ AI പ്രതികരണങ്ങളെയും ഔട്ട്‌പുട്ട് ഗുണനിലവാരത്തെയും എങ്ങനെ രൂപപ്പെടുത്തുന്നുവെന്ന് വിശദീകരിക്കുന്നു.

🔗 എന്താണ് AI ഡാറ്റ ലേബലിംഗ്?
പരിശീലന മോഡലുകൾക്കായി ഡാറ്റയ്ക്ക് കൃത്യമായ ലേബലുകൾ നൽകുന്നതിന്റെ അവലോകനം.

🔗 എന്താണ് AI നൈതികത
ഉത്തരവാദിത്തമുള്ള AI വികസനത്തിനും വിന്യാസത്തിനും വഴികാട്ടുന്ന ധാർമ്മിക തത്വങ്ങളുടെ ആമുഖം.

നല്ല AI പ്രകടനത്തിന് കാരണമാകുന്നത് എന്താണ്? ✅

ചുരുക്കി പറഞ്ഞാൽ: നല്ല AI പ്രകടനം എന്നാൽ നിങ്ങളുടെ സിസ്റ്റം ഉപയോഗപ്രദവും, വിശ്വസനീയവും, കുഴപ്പം നിറഞ്ഞതും, മാറിക്കൊണ്ടിരിക്കുന്നതുമായ സാഹചര്യങ്ങളിൽ ആവർത്തിക്കാവുന്നതുമാണ്. വ്യക്തമായി പറഞ്ഞാൽ:

ടാസ്‌ക് നിലവാരം - ശരിയായ കാരണങ്ങളാൽ അതിന് ശരിയായ ഉത്തരങ്ങൾ ലഭിക്കുന്നു.
കാലിബ്രേഷൻ - ആത്മവിശ്വാസ സ്‌കോറുകൾ യാഥാർത്ഥ്യവുമായി യോജിക്കുന്നു, അതിനാൽ നിങ്ങൾക്ക് സമർത്ഥമായ നടപടി സ്വീകരിക്കാൻ കഴിയും.
കരുത്ത് - ഇത് ഡ്രിഫ്റ്റ്, എഡ്ജ് കേസുകൾ, എതിരാളികളുടെ മങ്ങൽ എന്നിവയെ നേരിടുന്നു.
സുരക്ഷയും ന്യായവും - ഇത് ദോഷകരമോ, പക്ഷപാതപരമോ, അനുസരണക്കേടോ ആയ പെരുമാറ്റം ഒഴിവാക്കുന്നു.
കാര്യക്ഷമത - ഇത് ആവശ്യത്തിന് വേഗതയുള്ളതും, ആവശ്യത്തിന് വിലകുറഞ്ഞതും, സ്കെയിലിൽ പ്രവർത്തിക്കാൻ കഴിയുന്നത്ര സ്ഥിരതയുള്ളതുമാണ്.
ബിസിനസ് സ്വാധീനം - ഇത് നിങ്ങൾക്ക് പ്രധാനമായ കെപിഐയെ ചലിപ്പിക്കുന്നു.

മെട്രിക്സുകളും അപകടസാധ്യതകളും വിന്യസിക്കുന്നതിനുള്ള ഒരു ഔപചാരിക റഫറൻസ് പോയിന്റ് നിങ്ങൾക്ക് ആവശ്യമുണ്ടെങ്കിൽ, വിശ്വസനീയമായ സിസ്റ്റം വിലയിരുത്തലിനുള്ള ഒരു സോളിഡ് നോർത്ത് സ്റ്റാറാണ് NIST AI റിസ്ക് മാനേജ്മെന്റ് ഫ്രെയിംവർക്ക് . [1]

AI പ്രകടനം അളക്കുന്നതിനുള്ള ഉയർന്ന തലത്തിലുള്ള പാചകക്കുറിപ്പ് 🍳

മൂന്ന് പാളികളായി ചിന്തിക്കുക :

ടാസ്‌ക് മെട്രിക്‌സ് - ടാസ്‌ക് തരത്തിനായുള്ള കൃത്യത: വർഗ്ഗീകരണം, റിഗ്രഷൻ, റാങ്കിംഗ്, ജനറേഷൻ, നിയന്ത്രണം മുതലായവ.
സിസ്റ്റം മെട്രിക്സ് - ലേറ്റൻസി, ത്രൂപുട്ട്, ഓരോ കോളിനുമുള്ള ചെലവ്, പരാജയ നിരക്കുകൾ, ഡ്രിഫ്റ്റ് അലാറങ്ങൾ, അപ്‌ടൈം SLA-കൾ.
ഫല മെട്രിക്‌സ് - നിങ്ങൾക്ക് യഥാർത്ഥത്തിൽ ആവശ്യമുള്ള ബിസിനസ്, ഉപയോക്തൃ ഫലങ്ങൾ: പരിവർത്തനം, നിലനിർത്തൽ, സുരക്ഷാ സംഭവങ്ങൾ, മാനുവൽ-റിവ്യൂ ലോഡ്, ടിക്കറ്റ് വോളിയം.

ഒരു മികച്ച അളവെടുപ്പ് പദ്ധതി മനഃപൂർവ്വം മൂന്നും കൂട്ടിക്കലർത്തുന്നു. അല്ലെങ്കിൽ നിങ്ങൾക്ക് ലോഞ്ച്പാഡിൽ നിന്ന് ഒരിക്കലും പുറത്തുപോകാത്ത ഒരു റോക്കറ്റ് ലഭിക്കും.

പ്രശ്ന തരം അനുസരിച്ചുള്ള കോർ മെട്രിക്കുകൾ - ഏത് എപ്പോൾ ഉപയോഗിക്കണം 🎯

1) വർഗ്ഗീകരണം

കൃത്യത, ഓർമ്മപ്പെടുത്തൽ, F1 - ഒന്നാം ദിവസത്തെ ത്രയം. കൃത്യതയുടെയും ഓർമ്മപ്പെടുത്തലിന്റെയും ഹാർമോണിക് ശരാശരിയാണ് F1; ക്ലാസുകൾ അസന്തുലിതമാകുമ്പോഴോ ചെലവുകൾ അസമമായിരിക്കുമ്പോഴോ ഇത് ഉപയോഗപ്രദമാണ്. [2]
ROC-AUC - ക്ലാസിഫയറുകളുടെ ത്രെഷോൾഡ്-അഗ്നോസ്റ്റിക് റാങ്കിംഗ്; പോസിറ്റീവുകൾ അപൂർവമാകുമ്പോൾ, PR-AUC. [2]
സന്തുലിത കൃത്യത - ക്ലാസുകളിലുടനീളം ശരാശരി തിരിച്ചുവിളിക്കൽ; ചരിഞ്ഞ ലേബലുകൾക്ക് സൗകര്യപ്രദമാണ്. [2]

അപകടസൂചന: കൃത്യത മാത്രം മതി അസന്തുലിതാവസ്ഥയിൽ വല്ലാതെ തെറ്റിദ്ധരിപ്പിക്കപ്പെടാൻ. 99% ഉപയോക്താക്കളും നിയമാനുസൃതരാണെങ്കിൽ, മണ്ടനായ എപ്പോഴും നിയമാനുസൃതമായ ഒരു മോഡൽ 99% സ്കോർ നേടി ഉച്ചഭക്ഷണത്തിന് മുമ്പ് നിങ്ങളുടെ തട്ടിപ്പ് ടീമിനെ പരാജയപ്പെടുത്തും.

2) റിഗ്രഷൻ

മനുഷ്യന് മനസ്സിലാകുന്ന പിശകുകൾക്ക് MAE ; വലിയ പിഴവുകൾക്ക് ശിക്ഷ നൽകണമെങ്കിൽ RMSE ; വേരിയൻസിന് R² വിശദീകരിച്ചു. തുടർന്ന് വിതരണങ്ങളും അവശിഷ്ട പ്ലോട്ടുകളും സാനിറ്റി-ചെക്ക് ചെയ്യുക. [2] (സ്റ്റെയർഹോൾഡർമാർക്ക് പിശക് യഥാർത്ഥത്തിൽ അനുഭവപ്പെടുന്നതിന് ഡൊമെയ്ൻ-സൗഹൃദ യൂണിറ്റുകൾ ഉപയോഗിക്കുക.)

3) റാങ്കിംഗ്, വീണ്ടെടുക്കൽ, ശുപാർശകൾ

nDCG - സ്ഥാനവും ഗ്രേഡഡ് പ്രസക്തിയും ശ്രദ്ധിക്കുന്നു; തിരയൽ ഗുണനിലവാരത്തിനായുള്ള മാനദണ്ഡം.
MRR - ആദ്യത്തെ പ്രസക്തമായ ഇനം എത്ര വേഗത്തിൽ ദൃശ്യമാകുന്നു എന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു ("ഒരു നല്ല ഉത്തരം കണ്ടെത്തുക" എന്ന ടാസ്‌ക്കുകൾക്ക് മികച്ചത്).
(നടപ്പിലാക്കൽ റഫറൻസുകളും വർക്ക്ഡ് ഉദാഹരണങ്ങളും മുഖ്യധാരാ മെട്രിക് ലൈബ്രറികളിലാണ്.) [2]

4) വാചക രൂപീകരണവും സംഗ്രഹവും

BLEU ഉം ROUGE ഉം - ക്ലാസിക് ഓവർലാപ്പ് മെട്രിക്സ്; അടിസ്ഥാനരേഖകളായി ഉപയോഗപ്രദമാണ്.
എംബെഡിംഗ് അടിസ്ഥാനമാക്കിയുള്ള മെട്രിക്സ് (ഉദാ. BERTScore) പലപ്പോഴും മനുഷ്യന്റെ വിധിന്യായവുമായി കൂടുതൽ നന്നായി ബന്ധപ്പെട്ടിരിക്കുന്നു; ശൈലി, വിശ്വസ്തത, സുരക്ഷ എന്നിവയ്ക്കുള്ള മനുഷ്യ റേറ്റിംഗുകളുമായി എല്ലായ്പ്പോഴും ജോടിയാക്കുക. [4]

5) ചോദ്യത്തിനുള്ള ഉത്തരം

എക്‌സ്‌ക്റ്റ് മാച്ചും ടോക്കൺ -ലെവൽ എഫ്1 ഉം സാധാരണമാണ്; ഉത്തരങ്ങൾക്ക് ഉറവിടങ്ങൾ ഉദ്ധരിക്കേണ്ടതുണ്ടെങ്കിൽ, ഗ്രൗണ്ടിംഗും (ഉത്തര-പിന്തുണ പരിശോധനകൾ).

കാലിബ്രേഷൻ, ആത്മവിശ്വാസം, ബ്രയർ ലെൻസ് 🎚️

കോൺഫിഡൻസ് സ്‌കോറുകളിൽ പല സിസ്റ്റങ്ങളും നിശബ്ദമായി കിടക്കുന്നു. യാഥാർത്ഥ്യത്തെ പ്രതിഫലിപ്പിക്കുന്ന സാധ്യതകൾ നിങ്ങൾക്ക് വേണം, അതുവഴി ഓപ്പറേറ്റർമാർക്ക് പരിധികൾ, മനുഷ്യരിലേക്കുള്ള വഴി അല്ലെങ്കിൽ വില അപകടസാധ്യത എന്നിവ സജ്ജമാക്കാൻ കഴിയും.

കാലിബ്രേഷൻ കർവുകൾ - പ്രവചിക്കപ്പെട്ട സാധ്യതയും അനുഭവപരമായ ആവൃത്തിയും ദൃശ്യവൽക്കരിക്കുക.
ബ്രയർ സ്കോർ - പ്രോബബിലിസ്റ്റിക് കൃത്യതയ്ക്കുള്ള ശരിയായ സ്കോറിംഗ് നിയമം; താഴ്ന്നതാണ് നല്ലത്. റാങ്കിംഗിൽ മാത്രമല്ല, സാധ്യതയുടെ ഗുണനിലവാരത്തിലും നിങ്ങൾ ശ്രദ്ധ ചെലുത്തുമ്പോൾ ഇത് പ്രത്യേകിച്ചും ഉപയോഗപ്രദമാണ് . [3]

ഫീൽഡ് നോട്ട്: അൽപ്പം "മോശം" F1 എന്നാൽ വളരെ മികച്ച കാലിബ്രേഷൻ വൻതോതിൽ മെച്ചപ്പെടുത്തും - കാരണം ആളുകൾക്ക് ഒടുവിൽ സ്കോറുകളെ വിശ്വസിക്കാൻ കഴിയും.

സുരക്ഷ, പക്ഷപാതം, നീതി - പ്രധാനപ്പെട്ടത് അളക്കുക 🛡️⚖️

ഒരു സിസ്റ്റത്തിന് മൊത്തത്തിൽ കൃത്യത ഉണ്ടായിരിക്കാനും പ്രത്യേക ഗ്രൂപ്പുകളെ ദോഷകരമായി ബാധിക്കാനും കഴിയും. ഗ്രൂപ്പ് ചെയ്‌ത മെട്രിക്‌സും ന്യായബോധ മാനദണ്ഡങ്ങളും ട്രാക്ക് ചെയ്യുക:

ജനസംഖ്യാപരമായ തുല്യത - ഗ്രൂപ്പുകളിലുടനീളം തുല്യ പോസിറ്റീവ് നിരക്കുകൾ.
തുല്യമായ സാധ്യതകൾ / തുല്യ അവസരം - തുല്യമായ പിശക് നിരക്കുകൾ അല്ലെങ്കിൽ ഗ്രൂപ്പുകളിലുടനീളം യഥാർത്ഥ പോസിറ്റീവ് നിരക്കുകൾ; ഒറ്റത്തവണ പാസ്-പരാജയ സ്റ്റാമ്പുകളായിട്ടല്ല, മറിച്ച് ട്രേഡ്-ഓഫുകൾ കണ്ടെത്താനും കൈകാര്യം ചെയ്യാനും ഇവ ഉപയോഗിക്കുക. [5]

പ്രായോഗിക നുറുങ്ങ്: പ്രധാന മെട്രിക്സുകളെ പ്രധാന ആട്രിബ്യൂട്ടുകൾ അനുസരിച്ച് വിഭജിക്കുന്ന ഡാഷ്‌ബോർഡുകളിൽ നിന്ന് ആരംഭിക്കുക, തുടർന്ന് നിങ്ങളുടെ നയങ്ങൾ ആവശ്യപ്പെടുന്ന പ്രത്യേക ഫെയർനെസ് മെട്രിക്സുകൾ ചേർക്കുക. ഇത് കേൾക്കുമ്പോൾ അരോചകമായി തോന്നുമെങ്കിലും, ഒരു സംഭവത്തേക്കാൾ ഇത് വിലകുറഞ്ഞതാണ്.

LLM-കളും RAG-യും - യഥാർത്ഥത്തിൽ പ്രവർത്തിക്കുന്ന ഒരു മെഷർമെന്റ് പ്ലേബുക്ക് 📚🔍

ജനറേറ്റീവ് സിസ്റ്റങ്ങൾ അളക്കുന്നത്... ബുദ്ധിമുട്ടാണ്. ഇത് ചെയ്യുക:

ഫലങ്ങൾ നിർവചിക്കുക : കൃത്യത, സഹായകരമായ സ്വഭാവം, നിരുപദ്രവകരമായ സ്വഭാവം, ശൈലി പാലിക്കൽ, ബ്രാൻഡിലെ ടോൺ, ഉദ്ധരണി അടിസ്ഥാനം, നിരസിക്കൽ നിലവാരം.
അടിസ്ഥാന മൂല്യനിർണ്ണയങ്ങൾ ഓട്ടോമേറ്റ് ചെയ്യുക (ഉദാഹരണത്തിന്, നിങ്ങളുടെ സ്റ്റാക്കിലെ മൂല്യനിർണ്ണയ ഉപകരണങ്ങൾ) കൂടാതെ നിങ്ങളുടെ ഡാറ്റാസെറ്റുകൾക്കൊപ്പം അവ പതിപ്പ് ആയി സൂക്ഷിക്കുക.
ബുദ്ധിശക്തിക്കായി സെമാന്റിക് മെട്രിക്സുകളും (എംബെഡിംഗ് അടിസ്ഥാനമാക്കിയുള്ളത്) ഓവർലാപ്പ് മെട്രിക്സുകളും (BLEU/ROUGE) ചേർക്കുക . [4]
ഉപകരണ ഗ്രൗണ്ടിംഗ് : വീണ്ടെടുക്കൽ ഹിറ്റ് നിരക്ക്, സന്ദർഭ കൃത്യത/വീണ്ടെടുക്കൽ, ഉത്തര-പിന്തുണ ഓവർലാപ്പ്.
ധാരണയോടെയുള്ള മനുഷ്യ അവലോകനം - റേറ്റർ സ്ഥിരത അളക്കുക (ഉദാ: കോഹന്റെ κ അല്ലെങ്കിൽ ഫ്ലീസ്സിന്റെ κ) അങ്ങനെ നിങ്ങളുടെ ലേബലുകൾ വൈബുകളല്ല.

ബോണസ്: ലോഗ് ലേറ്റൻസി പെർസെന്റൈലുകളും ഓരോ ടാസ്‌ക്കിനും ടോക്കൺ അല്ലെങ്കിൽ കമ്പ്യൂട്ട് ചെലവ്. അടുത്ത ചൊവ്വാഴ്ച വരുന്ന കാവ്യാത്മകമായ ഉത്തരം ആരും ഇഷ്ടപ്പെടുന്നില്ല.

താരതമ്യ പട്ടിക - AI പ്രകടനം അളക്കാൻ നിങ്ങളെ സഹായിക്കുന്ന ഉപകരണങ്ങൾ 🛠️📊

(അതെ, ഇത് മനപ്പൂർവ്വം അല്പം കുഴപ്പമുള്ളതാണ് - യഥാർത്ഥ കുറിപ്പുകൾ കുഴപ്പമുള്ളതാണ്.)

ഉപകരണം	മികച്ച പ്രേക്ഷകർ	വില	ഇത് എന്തുകൊണ്ട് പ്രവർത്തിക്കുന്നു - പെട്ടെന്ന് എടുക്കുക
സ്കൈകിറ്റ്-ലേൺ മെട്രിക്സ്	എം.എൽ. പ്രാക്ടീഷണർമാർ	സൗ ജന്യം	വർഗ്ഗീകരണം, റിഗ്രഷൻ, റാങ്കിംഗ് എന്നിവയ്‌ക്കായുള്ള കാനോനിക്കൽ നടപ്പിലാക്കലുകൾ; പരീക്ഷണങ്ങളിൽ ഉൾപ്പെടുത്താൻ എളുപ്പമാണ്. [2]
MLflow ഇവാലുവേറ്റ് / GenAI	ഡാറ്റാ ശാസ്ത്രജ്ഞർ, എം‌എൽ‌ഒ‌പി‌എസ്	സൗജന്യം + പണമടച്ചുള്ളത്	കേന്ദ്രീകൃത റൺസ്, ഓട്ടോമേറ്റഡ് മെട്രിക്സ്, എൽഎൽഎം ജഡ്ജിമാർ, ഇഷ്ടാനുസൃത സ്കോറർമാർ; ആർട്ടിഫാക്റ്റുകൾ വൃത്തിയായി രേഖപ്പെടുത്തുന്നു.
വ്യക്തമായും	ഡാഷ്‌ബോർഡുകൾ വേഗത്തിൽ ആഗ്രഹിക്കുന്ന ടീമുകൾ	OSS + ക്ലൗഡ്	100+ മെട്രിക്സ്, ഡ്രിഫ്റ്റ്, ഗുണനിലവാര റിപ്പോർട്ടുകൾ, മോണിറ്ററിംഗ് ഹുക്കുകൾ - ഒരു നുള്ളിൽ മനോഹരമായ ദൃശ്യങ്ങൾ.
തൂക്കങ്ങളും പക്ഷപാതങ്ങളും	പരീക്ഷണാത്മകമായ ഓർഗനൈസേഷനുകൾ	സൗജന്യ ടയർ	അടുത്തടുത്തായി താരതമ്യങ്ങൾ, മൂല്യനിർണ്ണയ ഡാറ്റാസെറ്റുകൾ, ജഡ്ജിമാർ; പട്ടികകളും ട്രെയ്‌സുകളും വളരെ വൃത്തിയുള്ളതാണ്.
ലാങ്സ്മിത്ത്	എൽഎൽഎം ആപ്പ് നിർമ്മാതാക്കൾ	പണമടച്ചു	ഓരോ ഘട്ടവും പിന്തുടരുക, മനുഷ്യ അവലോകനത്തെ നിയമവുമായോ LLM മൂല്യനിർണ്ണയക്കാരുമായോ കൂട്ടിക്കലർത്തുക; RAG-ക്ക് മികച്ചത്.
ട്രൂലെൻസ്	ഓപ്പൺ സോഴ്‌സ് എൽഎൽഎം മൂല്യനിർണ്ണയ പ്രേമികൾ	ഒ.എസ്.എസ്.	വിഷാംശം, അടിസ്ഥാനതത്വം, പ്രസക്തി എന്നിവ സ്കോർ ചെയ്യുന്നതിനുള്ള ഫീഡ്‌ബാക്ക് ഫംഗ്‌ഷനുകൾ; എവിടെയും സംയോജിപ്പിക്കുക.
വലിയ പ്രതീക്ഷകൾ	ഡാറ്റ ഗുണനിലവാരം ആദ്യം പരിഗണിക്കുന്ന സ്ഥാപനങ്ങൾ	ഒ.എസ്.എസ്.	ഡാറ്റയെക്കുറിച്ചുള്ള പ്രതീക്ഷകൾ ഔപചാരികമാക്കുക - കാരണം മോശം ഡാറ്റ എന്തായാലും എല്ലാ മെട്രിക്കുകളെയും നശിപ്പിക്കുന്നു.
ഡീപ്‌ചെക്കുകൾ	ML-നുള്ള പരിശോധനയും CI/CD-യും	OSS + ക്ലൗഡ്	ഡാറ്റ ഡ്രിഫ്റ്റ്, മോഡൽ പ്രശ്നങ്ങൾ, നിരീക്ഷണം എന്നിവയ്‌ക്കായുള്ള ബാറ്ററികൾ ഉൾപ്പെടുന്ന പരിശോധന; നല്ല ഗാർഡ്‌റെയിലുകൾ.

വിലകൾ മാറുന്നു - ഡോക്യുമെന്റുകൾ പരിശോധിക്കുക. അതെ, ടൂൾ പോലീസ് കാണിക്കാതെ തന്നെ നിങ്ങൾക്ക് ഇവ മിക്സ് ചെയ്യാം.

പരിധികൾ, ചെലവുകൾ, തീരുമാന വക്രങ്ങൾ - രഹസ്യ സോസ് 🧪

വിചിത്രവും എന്നാൽ സത്യവുമായ ഒരു കാര്യം: ഒരേ ROC-AUC ഉള്ള രണ്ട് മോഡലുകൾക്ക് നിങ്ങളുടെ പരിധിയും ചെലവ് അനുപാതവും.

നിർമ്മിക്കാൻ എളുപ്പമുള്ള ഷീറ്റ്:

തെറ്റായ പോസിറ്റീവും തെറ്റായ നെഗറ്റീവും തമ്മിലുള്ള വില പണത്തിലോ സമയത്തിലോ നിശ്ചയിക്കുക.
പരിധികൾ തൂത്തുവാരി, 1k തീരുമാനങ്ങൾക്ക് പ്രതീക്ഷിക്കുന്ന ചെലവ് കണക്കാക്കുക.
പ്രതീക്ഷിക്കുന്ന ഏറ്റവും കുറഞ്ഞ ചെലവ് പരിധി തിരഞ്ഞെടുക്കുക , തുടർന്ന് അത് മോണിറ്ററിംഗ് ഉപയോഗിച്ച് ലോക്ക് ചെയ്യുക.

പോസിറ്റീവ് ആയവ വിരളമാകുമ്പോൾ PR കർവുകളും, പൊതുവായ ആകൃതിക്ക് ROC കർവുകളും, തീരുമാനങ്ങൾ സാധ്യതകളെ ആശ്രയിക്കുമ്പോൾ കാലിബ്രേഷൻ കർവുകളും ഉപയോഗിക്കുക. [2][3]

മിനി-കേസ്: കാലിബ്രേറ്റഡ് സ്കോർ ബാൻഡുകളുമായി ബന്ധിപ്പിച്ചിരിക്കുന്ന, ഹാർഡ് ത്രെഷോൾഡിൽ നിന്ന് ടയേർഡ് റൂട്ടിംഗിലേക്ക് (ഉദാഹരണത്തിന്, "ഓട്ടോ-റിസോൾവ്," "ഹ്യൂമൻ-റിവ്യൂ," "എസ്കലേറ്റ്") ഓപ്പറേഷനുകൾ മാറിയതിനുശേഷം, മിതമായ F1 ഉള്ളതും എന്നാൽ മികച്ച കാലിബ്രേഷൻ കട്ട് മാനുവൽ റീ-റൂട്ടുകളുള്ളതുമായ ഒരു സപ്പോർട്ട്-ടിക്കറ്റ് ട്രയേജ് മോഡൽ.

ഓൺലൈൻ നിരീക്ഷണം, ഡ്രിഫ്റ്റ്, മുന്നറിയിപ്പ് 🚨

ഓഫ്‌ലൈൻ മൂല്യനിർണ്ണയങ്ങൾ അവസാനമല്ല, തുടക്കമാണ്. ഉൽപ്പാദനത്തിൽ:

സെഗ്‌മെന്റ് അനുസരിച്ച് ഇൻപുട്ട് ഡ്രിഫ്റ്റ് , ഔട്ട്‌പുട്ട് ഡ്രിഫ്റ്റ് , പ്രകടന ഡീകേ എന്നിവ ട്രാക്ക് ചെയ്യുക .
ഗാർഡ്‌റെയിൽ പരിശോധനകൾ സജ്ജമാക്കുക - പരമാവധി ഭ്രമാത്മക നിരക്ക്, വിഷാംശ പരിധികൾ, ഫെയർനെസ് ഡെൽറ്റകൾ.
p95 ലേറ്റൻസി, ടൈംഔട്ടുകൾ, അഭ്യർത്ഥനയ്ക്കനുസരിച്ചുള്ള ചെലവ് എന്നിവയ്ക്കായി കാനറി ഡാഷ്‌ബോർഡുകൾ ചേർക്കുക .
ഇത് വേഗത്തിലാക്കാൻ പ്രത്യേകമായി നിർമ്മിച്ച ലൈബ്രറികൾ ഉപയോഗിക്കുക; അവ ഡ്രിഫ്റ്റ്, ഗുണനിലവാരം, മോണിറ്ററിംഗ് പ്രിമിറ്റീവുകൾ എന്നിവ ബോക്സിൽ നിന്ന് പുറത്തുനിന്ന് വാഗ്ദാനം ചെയ്യുന്നു.

ചെറിയ പിഴവുള്ള രൂപകം: നിങ്ങളുടെ മോഡലിനെ ഒരു പുളിപ്പിച്ച മാവ് പോലെ സങ്കൽപ്പിക്കുക - നിങ്ങൾ ഒരിക്കൽ ബേക്ക് ചെയ്ത് പോകില്ല; നിങ്ങൾ ഭക്ഷണം കൊടുക്കുന്നു, കാണുന്നു, മണക്കുന്നു, ചിലപ്പോൾ പുനരാരംഭിക്കുന്നു.

തകരാത്ത മനുഷ്യ മൂല്യനിർണ്ണയം 🍪

ആളുകൾ ഔട്ട്‌പുട്ടുകളെ ഗ്രേഡ് ചെയ്യുമ്പോൾ, പ്രക്രിയ നിങ്ങൾ കരുതുന്നതിലും പ്രധാനമാണ്.

പാസ് vs ബോർഡർലൈൻ vs പരാജയം എന്നിവയുടെ ഉദാഹരണങ്ങൾ ഉപയോഗിച്ച് ഇറുകിയ റൂബ്രിക്കുകൾ എഴുതുക .
കഴിയുമ്പോൾ സാമ്പിളുകൾ ക്രമരഹിതമാക്കുകയും ബ്ലൈൻഡ് ചെയ്യുകയും ചെയ്യുക.
ഇന്റർ-റേറ്റർ കരാർ അളക്കുക (ഉദാഹരണത്തിന്, രണ്ട് റേറ്റർമാർക്ക് കോഹന്റെ κ, പലർക്കും ഫ്ലീസിന്റെ κ) കരാർ തെറ്റിയാൽ റൂബ്രിക്സ് പുതുക്കുക.

ഇത് നിങ്ങളുടെ മാനുഷിക ലേബലുകൾ മാനസികാവസ്ഥയിലോ കാപ്പി വിതരണത്തിലോ വ്യതിചലിക്കുന്നതിൽ നിന്ന് തടയുന്നു.

ആഴത്തിലുള്ള പഠനം: RAG-യിൽ LLM-കൾക്കുള്ള AI പ്രകടനം എങ്ങനെ അളക്കാം 🧩

വീണ്ടെടുക്കൽ നിലവാരം - recall@k, precision@k, nDCG; സ്വർണ്ണ വസ്തുതകളുടെ കവറേജ്. [2]
ഉത്തര വിശ്വസ്തത - ഉദ്ധരിക്കുക-പരിശോധിക്കുക പരിശോധനകൾ, അടിസ്ഥാന സ്കോറുകൾ, എതിരാളി പ്രോബുകൾ.
ഉപയോക്തൃ സംതൃപ്തി - തള്ളവിരൽ, ജോലി പൂർത്തിയാക്കൽ, നിർദ്ദേശിച്ച ഡ്രാഫ്റ്റുകളിൽ നിന്നുള്ള എഡിറ്റ് ദൂരം.
സുരക്ഷ - വിഷാംശം, PII ചോർച്ച, നയ പാലനം.
ചെലവും ലേറ്റൻസിയും - ടോക്കണുകൾ, കാഷെ ഹിറ്റുകൾ, p95, p99 ലേറ്റൻസികൾ.

ഇവയെ ബിസിനസ്സ് പ്രവർത്തനങ്ങളുമായി ബന്ധിപ്പിക്കുക: അടിസ്ഥാന നിയന്ത്രണം ഒരു രേഖയ്ക്ക് താഴെയായി താഴ്ന്നാൽ, സ്ട്രിക്റ്റ് മോഡിലേക്ക് സ്വയമേവ റൂട്ട് ചെയ്യുക അല്ലെങ്കിൽ മനുഷ്യ അവലോകനം ചെയ്യുക.

ഇന്ന് തന്നെ തുടങ്ങാൻ ഒരു ലളിതമായ പ്ലേബുക്ക് 🪄

ജോലി നിർവചിക്കുക - ഒരു വാചകം എഴുതുക: AI എന്തുചെയ്യണം, ആർക്കുവേണ്ടിയാണ് ചെയ്യേണ്ടത്.
2-3 ടാസ്‌ക് മെട്രിക്കുകൾ തിരഞ്ഞെടുക്കുക - പ്ലസ് കാലിബ്രേഷൻ, കുറഞ്ഞത് ഒരു ഫെയർനെസ് സ്ലൈസ്. [2][3][5]
ചെലവ് ഉപയോഗിച്ച് പരിധികൾ തീരുമാനിക്കുക - ഊഹിക്കരുത്.
ഒരു ചെറിയ മൂല്യനിർണ്ണയ സെറ്റ് സൃഷ്ടിക്കുക - ഉൽപ്പാദന മിശ്രിതത്തെ പ്രതിഫലിപ്പിക്കുന്ന 100–500 ലേബൽ ചെയ്ത ഉദാഹരണങ്ങൾ.
നിങ്ങളുടെ മൂല്യനിർണ്ണയങ്ങൾ ഓട്ടോമേറ്റ് ചെയ്യുക - വയർ മൂല്യനിർണ്ണയം/നിരീക്ഷണം CI-യിലേക്ക് മാറ്റുക, അങ്ങനെ ഓരോ മാറ്റവും ഒരേ പരിശോധനകൾ നടത്തുന്നു.
ഉൽപ്പന്നത്തിൽ നിരീക്ഷിക്കുക - ഡ്രിഫ്റ്റ്, ലേറ്റൻസി, ചെലവ്, സംഭവ ഫ്ലാഗുകൾ.
ആരും ഉപയോഗിക്കാത്ത മെട്രിക്കുകൾ മാസംതോറും അവലോകനം ചെയ്യുക ; യഥാർത്ഥ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നവ ചേർക്കുക.
ഡോക്യുമെന്റ് തീരുമാനങ്ങൾ - നിങ്ങളുടെ ടീം യഥാർത്ഥത്തിൽ വായിക്കുന്ന ഒരു ജീവനുള്ള സ്കോർകാർഡ്.

അതെ, അക്ഷരാർത്ഥത്തിൽ അത്രമാത്രം. അത് പ്രവർത്തിക്കുന്നു.

സാധാരണ ഗൂഢലക്ഷ്യങ്ങളും അവ എങ്ങനെ ഒഴിവാക്കാം 🕳️🐇

ഒരൊറ്റ മെട്രിക്കിലേക്ക് ഓവർഫിറ്റിംഗ് - തീരുമാന സന്ദർഭവുമായി പൊരുത്തപ്പെടുന്ന ഒരു മെട്രിക് ബാസ്‌ക്കറ്റ് ഉപയോഗിക്കുക . [1][2]
കാലിബ്രേഷൻ അവഗണിക്കൽ - കാലിബ്രേഷൻ കൂടാതെയുള്ള ആത്മവിശ്വാസം വെറും പൊങ്ങച്ചമാണ്. [3]
വിഭജനമില്ല - എപ്പോഴും ഉപയോക്തൃ ഗ്രൂപ്പുകൾ, ഭൂമിശാസ്ത്രം, ഉപകരണം, ഭാഷ എന്നിവ അനുസരിച്ച് വിഭജിക്കുക. [5]
നിർവചിക്കാത്ത ചെലവുകൾ - നിങ്ങൾ വിലനിർണ്ണയത്തിൽ പിശകുകൾ വരുത്തിയില്ലെങ്കിൽ, നിങ്ങൾ തെറ്റായ പരിധി തിരഞ്ഞെടുക്കും.
മാനുഷിക മൂല്യനിർണ്ണയ വ്യതിയാനം - കരാർ അളക്കുക, റൂബ്രിക്സ് പുതുക്കുക, അവലോകകരെ വീണ്ടും പരിശീലിപ്പിക്കുക.
സുരക്ഷാ ഉപകരണങ്ങൾ ഇല്ല - ന്യായബോധം, വിഷാംശം, നയ പരിശോധനകൾ എന്നിവ ഇപ്പോൾ ചേർക്കുക, പിന്നീട് വേണ്ട. [1][5]

നിങ്ങൾ വന്ന വാചകം: AI പ്രകടനം എങ്ങനെ അളക്കാം - വളരെ ദൈർഘ്യമേറിയതാണ്, ഞാൻ അത് വായിച്ചില്ല 🧾

വ്യക്തമായ ഫലങ്ങളിൽ നിന്ന് ആരംഭിക്കുക , തുടർന്ന് ടാസ്‌ക് , സിസ്റ്റം , ബിസിനസ് മെട്രിക്സ് എന്നിവ അടുക്കി വയ്ക്കുക. [1]
ജോലിക്ക് ശരിയായ മെട്രിക്സ് ഉപയോഗിക്കുക - വർഗ്ഗീകരണത്തിന് F1 ഉം ROC-AUC ഉം; റാങ്കിംഗിനായി nDCG/MRR ഉം; ഓവർലാപ്പ് + സെമാന്റിക് മെട്രിക്സ് ജനറേഷനായി (മനുഷ്യരുമായി ജോടിയാക്കിയത്). [2][4]
നിങ്ങളുടെ സാധ്യതകൾ കാലിബ്രേറ്റ് ചെയ്ത് , പിശകുകൾക്ക് വില നിശ്ചയിച്ച് പരിധികൾ തിരഞ്ഞെടുക്കുക. [2][3]
ഗ്രൂപ്പ് സ്ലൈസുകൾക്കൊപ്പം ഫെയർനെസ് ചെക്കുകൾ ചേർക്കുകയും ട്രേഡ്-ഓഫുകൾ വ്യക്തമായി കൈകാര്യം ചെയ്യുകയും ചെയ്യുക. [5]
വിലയിരുത്തലുകളും നിരീക്ഷണവും ഓട്ടോമേറ്റ് ചെയ്യുക , അതുവഴി നിങ്ങൾക്ക് ഭയമില്ലാതെ ആവർത്തിക്കാൻ കഴിയും.

അത് എങ്ങനെയാണെന്ന് നിങ്ങൾക്കറിയാം - പ്രധാനപ്പെട്ടത് അളക്കുക, അല്ലെങ്കിൽ പ്രധാനപ്പെട്ടത് മെച്ചപ്പെടുത്തുന്നതിൽ നിങ്ങൾ അവസാനിക്കും.

അവലംബം

[1] NIST. AI റിസ്ക് മാനേജ്മെന്റ് ഫ്രെയിംവർക്ക് (AI RMF). കൂടുതൽ വായിക്കുക
[2] scikit-learn. മോഡൽ വിലയിരുത്തൽ: പ്രവചനങ്ങളുടെ ഗുണനിലവാരം അളക്കൽ (ഉപയോക്തൃ ഗൈഡ്). കൂടുതൽ വായിക്കുക
[3] scikit-learn. പ്രോബബിലിറ്റി കാലിബ്രേഷൻ (കാലിബ്രേഷൻ കർവുകൾ, ബ്രയർ സ്കോർ). കൂടുതൽ വായിക്കുക
[4] പാപ്പിനെനി തുടങ്ങിയവർ (2002). BLEU: മെഷീൻ വിവർത്തനത്തിന്റെ യാന്ത്രിക വിലയിരുത്തലിനുള്ള ഒരു രീതി. ACL. കൂടുതൽ വായിക്കുക
[5] ഹാർഡ്റ്റ്, വില, സ്രെബ്രോ (2016). സൂപ്പർവൈസ്ഡ് ലേണിംഗിലെ അവസര സമത്വം. ന്യൂറിഐപിഎസ്. കൂടുതൽ വായിക്കുക

ഔദ്യോഗിക AI അസിസ്റ്റന്റ് സ്റ്റോറിൽ ഏറ്റവും പുതിയ AI കണ്ടെത്തുക

ഞങ്ങളേക്കുറിച്ച്

ബ്ലോഗിലേക്ക് മടങ്ങുക