ഒരു AI പരിശീലകൻ എന്താണ്?

AI ചിലപ്പോൾ ഒരു മാന്ത്രിക തന്ത്രം പോലെ തോന്നും. നിങ്ങൾ ഒരു ക്രമരഹിതമായ ചോദ്യം ടൈപ്പ് ചെയ്യുന്നു, ബാം - ഒരു മിനുസമാർന്നതും മിനുക്കിയതുമായ ഉത്തരം നിമിഷങ്ങൾക്കുള്ളിൽ ദൃശ്യമാകും. എന്നാൽ ഇതാ ഒരു കർവ്ബോൾ: ഓരോ "പ്രതിഭ" മെഷീനിനു പിന്നിലും, അതിനെ തള്ളിമാറ്റുകയും തിരുത്തുകയും രൂപപ്പെടുത്തുകയും ചെയ്യുന്ന യഥാർത്ഥ ആളുകളുണ്ട്. ആ ആളുകളെ AI പരിശീലകർ, അവർ ചെയ്യുന്ന ജോലി മിക്ക ആളുകളും കരുതുന്നതിനേക്കാൾ വിചിത്രവും രസകരവും സത്യസന്ധമായി പറഞ്ഞാൽ കൂടുതൽ മനുഷ്യത്വപരവുമാണ്.

ഈ പരിശീലകർ എന്തുകൊണ്ട് പ്രാധാന്യമർഹിക്കുന്നു, അവരുടെ ദൈനംദിന ജീവിതം എങ്ങനെയിരിക്കുന്നു, ആരും പ്രവചിച്ചതിലും വേഗത്തിൽ ഈ റോൾ എന്തുകൊണ്ടാണ് വളരുന്നത് എന്നിവയിലൂടെ നമുക്ക് കടന്നുപോകാം.

ഇതിനു ശേഷം നിങ്ങൾക്ക് വായിക്കാൻ ഇഷ്ടപ്പെട്ടേക്കാവുന്ന ലേഖനങ്ങൾ:

🔗 എന്താണ് AI ആർബിട്രേജ്: ആ പരസ്യവാക്കിന് പിന്നിലെ സത്യം
AI ആർബിട്രേജ്, അതിന്റെ അപകടസാധ്യതകൾ, നേട്ടങ്ങൾ, പൊതുവായ തെറ്റിദ്ധാരണകൾ എന്നിവ വിശദീകരിക്കുന്നു.

🔗 AI-യ്ക്കുള്ള ഡാറ്റ സംഭരണ ആവശ്യകതകൾ: നിങ്ങൾ ശരിക്കും അറിയേണ്ടത്
AI സിസ്റ്റങ്ങൾക്കായുള്ള സംഭരണ ആവശ്യകതകൾ, സ്കേലബിളിറ്റി, കാര്യക്ഷമത എന്നിവ ഉൾക്കൊള്ളുന്നു.

🔗 AI യുടെ പിതാവ് ആരാണ്?
AI-യുടെ പയനിയർമാരെയും കൃത്രിമബുദ്ധിയുടെ ഉത്ഭവത്തെയും പര്യവേക്ഷണം ചെയ്യുന്നു.

ഒരു സോളിഡ് AI പരിശീലകനെ സൃഷ്ടിക്കുന്നത് എന്താണ്? 🏆

ഇത് ബട്ടൺ മാഷ് ചെയ്യുന്ന ജോലിയല്ല. മികച്ച പരിശീലകർ കഴിവുകളുടെ വളരെ വിചിത്രമായ ഒരു മിശ്രിതത്തെ ആശ്രയിക്കുന്നു:

ക്ഷമ (ധാരാളം) - മോഡലുകൾ ഒറ്റയടിക്ക് പഠിക്കുന്നില്ല. പരിശീലകർ അതേ തിരുത്തലുകൾ തുടർച്ചയായി വരുത്തുന്നത് വരെ ആവർത്തിച്ച് ആവർത്തിക്കുന്നു.
സൂക്ഷ്മത കണ്ടെത്തൽ - പരിഹാസം, സാംസ്കാരിക സന്ദർഭം അല്ലെങ്കിൽ പക്ഷപാതം എന്നിവ മനസ്സിലാക്കുന്നതാണ് മനുഷ്യന്റെ പ്രതികരണത്തിന് പ്രാധാന്യം നൽകുന്നത് [1].
നേരിട്ടുള്ള ആശയവിനിമയം - പകുതി ജോലിയും AI-ക്ക് തെറ്റായി വായിക്കാൻ കഴിയാത്ത വ്യക്തമായ നിർദ്ദേശങ്ങൾ എഴുതുക എന്നതാണ്.
ജിജ്ഞാസ + ധാർമ്മികത - ഒരു നല്ല പരിശീലകൻ ഒരു ഉത്തരം "വസ്തുതാപരമായി ശരിയാണോ" എന്ന് ചോദിക്കുന്നു, പക്ഷേ സാമൂഹികമായി ബധിരമാണോ - AI മേൽനോട്ടത്തിലെ ഒരു പ്രധാന വിഷയം [2].

ലളിതമായി പറഞ്ഞാൽ: ഒരു പരിശീലകൻ ഭാഗികമായി അധ്യാപകനും, ഭാഗികമായി എഡിറ്ററും, ഒരുതരം നൈതികവാദിയുമാണ്.

AI പരിശീലകരുടെ റോളുകൾ ഒറ്റനോട്ടത്തിൽ (ചില പ്രത്യേകതകളോടെ 😉)

റോൾ തരം	ആർക്കാണ് ഏറ്റവും അനുയോജ്യം	സാധാരണ ശമ്പളം	എന്തുകൊണ്ട് ഇത് പ്രവർത്തിക്കുന്നു (അല്ലെങ്കിൽ പ്രവർത്തിക്കുന്നില്ല)
ഡാറ്റ ലേബലർ	സൂക്ഷ്മ വിശദാംശങ്ങൾ ഇഷ്ടപ്പെടുന്ന ആളുകൾ	താഴ്ന്ന–ഇടത്തരം $$	വളരെ നിർണായകമാണ്; ലേബലുകൾ മങ്ങിയതാണെങ്കിൽ, മുഴുവൻ മോഡലും കഷ്ടപ്പെടും [3] 📊
ആർ‌എൽ‌എച്ച്‌എഫ് സ്പെഷ്യലിസ്റ്റ്	എഴുത്തുകാർ, എഡിറ്റർമാർ, വിശകലന വിദഗ്ധർ	ഇടത്തരം–ഉയർന്ന $$	മനുഷ്യന്റെ പ്രതീക്ഷകളുമായി സ്വരവും വ്യക്തതയും യോജിപ്പിക്കുന്നതിന് പ്രതികരണങ്ങളെ റാങ്ക് ചെയ്യുകയും മാറ്റിയെഴുതുകയും ചെയ്യുന്നു [1]
ഡൊമെയ്ൻ പരിശീലകൻ	അഭിഭാഷകർ, ഡോക്ടർമാർ, വിദഗ്ധർ	മാപ്പിൽ എല്ലായിടത്തും 💼	വ്യവസായ-നിർദ്ദിഷ്ട സിസ്റ്റങ്ങൾക്കായുള്ള നിച് ജാർഗോണും എഡ്ജ് കേസുകളും കൈകാര്യം ചെയ്യുന്നു
സുരക്ഷാ അവലോകകൻ	ധാർമ്മിക ചിന്താഗതിക്കാരായ ആളുകൾ	ഇടത്തരം $$	ദോഷകരമായ ഉള്ളടക്കം ഒഴിവാക്കാൻ AI മാർഗ്ഗനിർദ്ദേശങ്ങൾ പ്രയോഗിക്കുന്നു [2][5]
ക്രിയേറ്റീവ് ട്രെയിനർ	കലാകാരന്മാർ, കഥാകാരന്മാർ	പ്രവചനാതീതമായത് 💡	സുരക്ഷിതമായ പരിധിക്കുള്ളിൽ തന്നെ തുടരുമ്പോൾ തന്നെ ഭാവനയെ പ്രതിധ്വനിപ്പിക്കാൻ AI-യെ സഹായിക്കുന്നു [5]

(അതെ, ഫോർമാറ്റിംഗ് അല്പം കുഴപ്പമുള്ളതാണ് - ജോലി തന്നെ പോലെ തന്നെ.)

ഒരു AI പരിശീലകന്റെ ജീവിതത്തിലെ ഒരു ദിവസം

അപ്പോൾ യഥാർത്ഥ ജോലി എങ്ങനെയിരിക്കും? ഗ്ലാമറസ് കോഡിംഗും മറ്റും കുറച്ചു ചിന്തിക്കുക:

AI എഴുതിയ ഉത്തരങ്ങൾ ഏറ്റവും മോശം മുതൽ മികച്ചത് വരെ റാങ്ക് ചെയ്യുന്നു (ക്ലാസിക് RLHF ഘട്ടം) [1].
ആശയക്കുഴപ്പങ്ങൾ പരിഹരിക്കൽ (ശുക്രൻ ചൊവ്വയല്ലെന്ന് മോഡൽ മറന്നുപോകുന്നത് പോലെ).
ചാറ്റ്ബോട്ട് മറുപടികൾ കൂടുതൽ സ്വാഭാവികമായി തോന്നുന്ന തരത്തിൽ മാറ്റിയെഴുതുന്നു.
വാചകം, ചിത്രങ്ങൾ അല്ലെങ്കിൽ ഓഡിയോ എന്നിവയുടെ പർവതനിരകൾ ലേബൽ ചെയ്യുന്നു - ഇവിടെ കൃത്യത ശരിക്കും പ്രധാനമാണ് [3].
"സാങ്കേതികമായി ശരി" എന്നത് മതിയായതാണോ അതോ സുരക്ഷാ മാർഗ്ഗനിർദ്ദേശങ്ങൾ മറികടക്കണമോ എന്നതിനെക്കുറിച്ച് ചർച്ച ചെയ്യുന്നു [2].

ഇത് ഒരുതരം തമാശയാണ്, ഒരുതരം പസിൽ ആണ്. സത്യം പറഞ്ഞാൽ, ഒരു തത്തയെ സംസാരിക്കാൻ മാത്രമല്ല, തെറ്റായ വാക്കുകൾ ഉപയോഗിക്കുന്നത് നിർത്താനും പഠിപ്പിക്കുന്നത് സങ്കൽപ്പിക്കുക - അതാണ് ഇപ്പോഴത്തെ അനുഭവം. 🦜

പരിശീലകർ നിങ്ങൾ വിചാരിക്കുന്നതിലും വളരെ പ്രധാനമായിരിക്കുന്നത് എന്തുകൊണ്ട്?

മനുഷ്യർ നിയന്ത്രിക്കുന്നില്ലെങ്കിൽ, AI:

ശബ്ദം കടുപ്പമുള്ളതും റോബോട്ടിക് ആയതും.
നിയന്ത്രിക്കാതെ പക്ഷപാതം പ്രചരിപ്പിക്കുക (ഭയപ്പെടുത്തുന്ന ചിന്ത).
നർമ്മമോ സഹാനുഭൂതിയോ പൂർണ്ണമായും മിസ്സ് ചെയ്യുന്നു.
സെൻസിറ്റീവ് സന്ദർഭങ്ങളിൽ സുരക്ഷ കുറയ്ക്കുക.

"വൃത്തികെട്ട മനുഷ്യ കാര്യങ്ങളിൽ" - സ്ലാംഗ്, ഊഷ്മളത, ഇടയ്ക്കിടെയുള്ള വൃത്തികെട്ട രൂപകം - ഒളിഞ്ഞുനോക്കുന്നത് പരിശീലകരാണ് - അതേസമയം കാര്യങ്ങൾ സുരക്ഷിതമായി സൂക്ഷിക്കാൻ ഗാർഡ്‌റെയിലുകൾ പ്രയോഗിക്കുകയും ചെയ്യുന്നു [2][5].

ശരിക്കും കണക്കാക്കേണ്ട കഴിവുകൾ

നിങ്ങൾക്ക് ഒരു പിഎച്ച്ഡി ആവശ്യമാണെന്ന മിഥ്യാധാരണ മറക്കുക. ഏറ്റവും സഹായിക്കുന്നത് ഇവയാണ്:

എഴുത്ത് + എഡിറ്റിംഗ് ചോപ്‌സ് - മിനുക്കിയതും എന്നാൽ സ്വാഭാവികമായി തോന്നുന്നതുമായ വാചകം [1].
വിശകലന ചിന്ത - ആവർത്തിച്ചുള്ള മോഡൽ തെറ്റുകൾ കണ്ടെത്തുകയും മാറ്റങ്ങൾ വരുത്തുകയും ചെയ്യുക.
സാംസ്കാരിക അവബോധം - പദപ്രയോഗം എപ്പോൾ തെറ്റായി മാറിയേക്കാം എന്ന് അറിയുന്നത് [2].
ക്ഷമ - കാരണം AI പെട്ടെന്ന് മനസ്സിലാക്കാൻ കഴിയില്ല.

ബഹുഭാഷാ വൈദഗ്ധ്യത്തിനോ പ്രത്യേക വൈദഗ്ധ്യത്തിനോ ബോണസ് പോയിന്റുകൾ.

പരിശീലകർ എത്തുന്ന സ്ഥലം 🌍

ഈ ജോലി ചാറ്റ്ബോട്ടുകളെ മാത്രമല്ല - ഇത് എല്ലാ മേഖലകളിലേക്കും നുഴഞ്ഞുകയറുന്നു:

ആരോഗ്യ സംരക്ഷണം - ബോർഡർലൈൻ കേസുകൾക്കുള്ള വ്യാഖ്യാന നിയമങ്ങൾ എഴുതൽ (ആരോഗ്യ AI മാർഗ്ഗനിർദ്ദേശത്തിൽ പ്രതിധ്വനിക്കുന്നു) [2].
ധനകാര്യം - ആളുകളെ തെറ്റായ മുന്നറിയിപ്പുകളിൽ മുക്കാതെ തട്ടിപ്പ് കണ്ടെത്തൽ സംവിധാനങ്ങൾ പരിശീലിപ്പിക്കുക [2].
റീട്ടെയിൽ - ബ്രാൻഡ് ടോണിൽ ഉറച്ചുനിൽക്കുമ്പോൾ തന്നെ സ്ലാങ്കി ഷോപ്പർ ഭാഷ ഉപയോഗിക്കുന്നതിനുള്ള അധ്യാപന സഹായികൾ [5].
വിദ്യാഭ്യാസം - രക്ഷാധികാരികളാകുന്നതിനു പകരം പ്രോത്സാഹജനകമാകുന്ന തരത്തിൽ ട്യൂട്ടറിംഗ് ബോട്ടുകളെ രൂപപ്പെടുത്തൽ [5].

അടിസ്ഥാനപരമായി: AI-ക്ക് മേശയിൽ ഒരു ഇരിപ്പിടമുണ്ടെങ്കിൽ, പശ്ചാത്തലത്തിൽ ഒരു പരിശീലകൻ ഒളിച്ചിരിക്കുന്നുണ്ടാകും.

എത്തിക്സ് ബിറ്റ് (ഇത് ഒഴിവാക്കാൻ കഴിയില്ല)

ഇവിടെയാണ് അത് ഗൗരവമായി കാണുന്നത്. നിയന്ത്രിക്കാതെ വിട്ടാൽ, AI സ്റ്റീരിയോടൈപ്പുകൾ, തെറ്റായ വിവരങ്ങൾ അല്ലെങ്കിൽ അതിലും മോശമായ കാര്യങ്ങൾ ആവർത്തിക്കുന്നു. RLHF പോലുള്ള രീതികൾ അല്ലെങ്കിൽ മോഡലുകളെ സഹായകരവും നിരുപദ്രവകരവുമായ ഉത്തരങ്ങളിലേക്ക് നയിക്കുന്ന ഭരണഘടനാ നിയമങ്ങൾ ഉപയോഗിച്ച് പരിശീലകർ അത് തടയുന്നു [1][5].

ഉദാഹരണം: ഒരു ബോട്ട് പക്ഷപാതപരമായ ജോലി ശുപാർശകൾ മുന്നോട്ട് വയ്ക്കുകയാണെങ്കിൽ, ഒരു പരിശീലകൻ അത് ഫ്ലാഗ് ചെയ്യുകയും നിയമങ്ങൾ മാറ്റിയെഴുതുകയും അത് വീണ്ടും സംഭവിക്കുന്നില്ലെന്ന് ഉറപ്പാക്കുകയും ചെയ്യുന്നു. അതാണ് പ്രവർത്തനത്തിലെ മേൽനോട്ടമാണ് [2].

അത്ര രസകരമല്ലാത്ത വശം

എല്ലാം തിളക്കമുള്ളതല്ല. പരിശീലകർ കൈകാര്യം ചെയ്യുന്നത്:

ഏകതാനത - അനന്തമായ ലേബലിംഗ് പഴയതാകുന്നു.
വൈകാരിക ക്ഷീണം - ദോഷകരമോ അസ്വസ്ഥത ഉളവാക്കുന്നതോ ആയ ഉള്ളടക്കം അവലോകനം ചെയ്യുന്നത് ഒരു ദോഷം വരുത്തിവച്ചേക്കാം; പിന്തുണാ സംവിധാനങ്ങൾ നിർണായകമാണ് [4].
അംഗീകാരക്കുറവ് - പരിശീലകർ ഉണ്ടെന്ന് ഉപയോക്താക്കൾ അപൂർവ്വമായി മാത്രമേ മനസ്സിലാക്കൂ.
നിരന്തരമായ മാറ്റം - ഉപകരണങ്ങൾ തുടർച്ചയായി വികസിച്ചുകൊണ്ടിരിക്കുന്നു, അതായത് പരിശീലകർ അതേപടി തുടരേണ്ടതുണ്ട്.

എന്നിരുന്നാലും, പലർക്കും, സാങ്കേതികവിദ്യയുടെ "തലച്ചോറിനെ" രൂപപ്പെടുത്തുന്നതിന്റെ ആവേശം അവരെ അതിൽ ആകർഷിച്ചു നിർത്തുന്നു.

AI-യുടെ മറഞ്ഞിരിക്കുന്ന MVP-കൾ

അപ്പോൾ, ആരാണ് AI പരിശീലകർ? അവർ റോ അൽഗോരിതങ്ങൾക്കും ആളുകൾക്ക് വേണ്ടി പ്രവർത്തിക്കുന്ന സിസ്റ്റങ്ങൾക്കും ഇടയിലുള്ള പാലമാണ് . അവരില്ലെങ്കിൽ, ലൈബ്രേറിയൻമാരില്ലാത്ത ഒരു ലൈബ്രറി പോലെയാകും AI - ടൺ കണക്കിന് വിവരങ്ങൾ, പക്ഷേ ഉപയോഗിക്കാൻ ഏതാണ്ട് അസാധ്യമാണ്.

അടുത്ത തവണ ഒരു ചാറ്റ്ബോട്ട് നിങ്ങളെ ചിരിപ്പിക്കുമ്പോഴോ അല്ലെങ്കിൽ അതിശയകരമാംവിധം "ഈണത്തിൽ" തോന്നുമ്പോഴോ, ഒരു പരിശീലകന് നന്ദി പറയുക. അവർ നിശബ്ദരായ രൂപങ്ങളാണ്, യന്ത്രങ്ങൾ കമ്പ്യൂട്ട് ചെയ്യുക മാത്രമല്ല, ബന്ധിപ്പിക്കുകയും ചെയ്യുന്നു [1][2][5].

അവലംബം

[1] ഔയാങ്, എൽ. തുടങ്ങിയവർ (2022). മാനുഷിക ഫീഡ്‌ബാക്കിനൊപ്പം നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിന് ഭാഷാ മോഡലുകളെ പരിശീലിപ്പിക്കുക (InstructGPT). ന്യൂറിഐപിഎസ്. ലിങ്ക്

[2] NIST (2023). ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് റിസ്ക് മാനേജ്മെന്റ് ഫ്രെയിംവർക്ക് (AI RMF 1.0). ലിങ്ക്

[3] നോർത്ത്‌കട്ട്, സി. തുടങ്ങിയവർ (2021). ടെസ്റ്റ് സെറ്റുകളിലെ വ്യാപകമായ ലേബൽ പിശകുകൾ മെഷീൻ ലേണിംഗ് ബെഞ്ച്‌മാർക്കുകളെ അസ്ഥിരപ്പെടുത്തുന്നു. ന്യൂറിഐപിഎസ് ഡാറ്റാസെറ്റുകളും ബെഞ്ച്‌മാർക്കുകളും. ലിങ്ക്

[4] WHO/ILO (2022). ജോലിസ്ഥലത്തെ മാനസികാരോഗ്യത്തെക്കുറിച്ചുള്ള മാർഗ്ഗനിർദ്ദേശങ്ങൾ. ലിങ്ക്

[5] ബായ്, വൈ. തുടങ്ങിയവർ (2022). ഭരണഘടനാപരമായ AI: AI ഫീഡ്‌ബാക്കിൽ നിന്നുള്ള നിരുപദ്രവകരമായ വശം. arXiv. ലിങ്ക്

ഔദ്യോഗിക AI അസിസ്റ്റന്റ് സ്റ്റോറിൽ ഏറ്റവും പുതിയ AI കണ്ടെത്തുക

ഞങ്ങളേക്കുറിച്ച്

ബ്ലോഗിലേക്ക് മടങ്ങുക