ചുരുക്ക ഉത്തരം: ഒരു AI മോഡൽ വിന്യസിക്കുക എന്നാൽ ഒരു സെർവിംഗ് പാറ്റേൺ (തത്സമയം, ബാച്ച്, സ്ട്രീമിംഗ് അല്ലെങ്കിൽ എഡ്ജ്) തിരഞ്ഞെടുക്കുക എന്നാണ് അർത്ഥമാക്കുന്നത്, തുടർന്ന് മുഴുവൻ പാതയും പുനർനിർമ്മിക്കാവുന്നതും, നിരീക്ഷിക്കാവുന്നതും, സുരക്ഷിതവും, പഴയപടിയാക്കാവുന്നതുമാക്കി മാറ്റുക എന്നതാണ്. നിങ്ങൾ എല്ലാം പതിപ്പ് ചെയ്യുകയും പ്രൊഡക്ഷൻ പോലുള്ള പേലോഡുകളിൽ p95/p99 ലേറ്റൻസി ബെഞ്ച്മാർക്ക് ചെയ്യുകയും ചെയ്യുമ്പോൾ, നിങ്ങൾ മിക്ക "എന്റെ ലാപ്ടോപ്പിലെ പ്രവൃത്തികൾ" പരാജയങ്ങളെ മറികടക്കുന്നു.
പ്രധാന കാര്യങ്ങൾ:
വിന്യാസ പാറ്റേണുകൾ: ടൂളുകൾ ഉപയോഗിക്കുന്നതിന് മുമ്പ് തത്സമയം, ബാച്ച്, സ്ട്രീമിംഗ് അല്ലെങ്കിൽ എഡ്ജ് തിരഞ്ഞെടുക്കുക.
പുനരുൽപാദനക്ഷമത: ഡ്രിഫ്റ്റ് തടയുന്നതിന് മോഡൽ, സവിശേഷതകൾ, കോഡ്, പരിസ്ഥിതി എന്നിവ പതിപ്പിക്കുക.
നിരീക്ഷണക്ഷമത: ലേറ്റൻസി ടെയിലുകൾ, പിശകുകൾ, സാച്ചുറേഷൻ, ഡാറ്റ അല്ലെങ്കിൽ ഔട്ട്പുട്ട് വിതരണങ്ങൾ എന്നിവ തുടർച്ചയായി നിരീക്ഷിക്കുക.
സുരക്ഷിതമായ റോൾഔട്ടുകൾ: ഓട്ടോമാറ്റിക് റോൾബാക്ക് ത്രെഷോൾഡുകളുള്ള കാനറി, നീല-പച്ച അല്ലെങ്കിൽ ഷാഡോ ടെസ്റ്റിംഗ് ഉപയോഗിക്കുക.
സുരക്ഷയും സ്വകാര്യതയും: ആധികാരികത, നിരക്ക് പരിധികൾ, രഹസ്യ മാനേജ്മെന്റ് എന്നിവ പ്രയോഗിക്കുക, ലോഗുകളിൽ PII കുറയ്ക്കുക.

ഇതിനു ശേഷം നിങ്ങൾക്ക് വായിക്കാൻ ഇഷ്ടപ്പെട്ടേക്കാവുന്ന ലേഖനങ്ങൾ:
🔗 AI പ്രകടനം എങ്ങനെ അളക്കാം
വിശ്വസനീയമായ AI ഫലങ്ങൾക്കായി മെട്രിക്സ്, ബെഞ്ച്മാർക്കുകൾ, യഥാർത്ഥ ലോക പരിശോധനകൾ എന്നിവ പഠിക്കുക.
🔗 AI ഉപയോഗിച്ച് ജോലികൾ എങ്ങനെ ഓട്ടോമേറ്റ് ചെയ്യാം
പ്രോംപ്റ്റുകൾ, ടൂളുകൾ, ഇന്റഗ്രേഷനുകൾ എന്നിവ ഉപയോഗിച്ച് ആവർത്തിച്ചുള്ള ജോലികളെ വർക്ക്ഫ്ലോകളാക്കി മാറ്റുക.
🔗 AI മോഡലുകൾ എങ്ങനെ പരീക്ഷിക്കാം
മോഡലുകളെ വസ്തുനിഷ്ഠമായി താരതമ്യം ചെയ്യുന്നതിനായി വിലയിരുത്തലുകൾ, ഡാറ്റാസെറ്റുകൾ, സ്കോറിംഗ് എന്നിവ രൂപകൽപ്പന ചെയ്യുക.
🔗 AI-യോട് എങ്ങനെ സംസാരിക്കാം
മികച്ച ചോദ്യങ്ങൾ ചോദിക്കൂ, സന്ദർഭം സജ്ജമാക്കൂ, കൂടുതൽ വ്യക്തമായ ഉത്തരങ്ങൾ വേഗത്തിൽ നേടൂ.
1) “വിന്യാസം” എന്നാൽ എന്താണ് (എന്തുകൊണ്ട് അത് വെറുമൊരു API അല്ല) 🧩
"മോഡൽ വിന്യസിക്കുക" എന്ന് ആളുകൾ പറയുമ്പോൾ, അവർ ഇവയിൽ ഏതെങ്കിലും അർത്ഥമാക്കിയേക്കാം:
-
ഒരു ആപ്പിന് തത്സമയം അനുമാനം വിളിക്കാൻ കഴിയുന്ന തരത്തിൽ ഒരു എൻഡ്പോയിന്റ് തുറന്നുകാട്ടുക വെർട്ടെക്സ് AI: ഒരു എൻഡ്പോയിന്റിലേക്ക് ഒരു മോഡൽ വിന്യസിക്കുക , ആമസോൺ സേജ് മേക്കർ: തത്സമയ അനുമാനം )
-
ഒരു ഡാറ്റാബേസിലെ പ്രവചനങ്ങൾ അപ്ഡേറ്റ് ചെയ്യുന്നതിന് രാത്രിയിൽ ബാച്ച് സ്കോറിംഗ് പ്രവർത്തിപ്പിക്കുക ആമസോൺ സേജ് മേക്കർ ബാച്ച് ട്രാൻസ്ഫോം )
-
സ്ട്രീം അനുമാനം (ഇവന്റുകൾ നിരന്തരം വരുന്നു, പ്രവചനങ്ങൾ നിരന്തരം പുറത്തുവരുന്നു) ( ക്ലൗഡ് ഡാറ്റാഫ്ലോ: കൃത്യമായി-ഒരിക്കൽ vs-കുറഞ്ഞത്-ഒരിക്കൽ , ക്ലൗഡ് ഡാറ്റാഫ്ലോ സ്ട്രീമിംഗ് മോഡുകൾ )
-
എഡ്ജ് വിന്യാസം (ഫോൺ, ബ്രൗസർ, ഉൾച്ചേർത്ത ഉപകരണം, അല്ലെങ്കിൽ "ഒരു ഫാക്ടറിയിലെ ആ ചെറിയ പെട്ടി") ( LiteRT ഉപകരണത്തിലെ അനുമാനം , LiteRT അവലോകനം )
-
ആന്തരിക ഉപകരണ വിന്യാസം (അനലിസ്റ്റിനെ അഭിമുഖീകരിക്കുന്ന UI, നോട്ട്ബുക്കുകൾ അല്ലെങ്കിൽ ഷെഡ്യൂൾ ചെയ്ത സ്ക്രിപ്റ്റുകൾ)
അതിനാൽ വിന്യാസം "മോഡൽ ആക്സസ് ചെയ്യാവുന്നതാക്കുക" എന്നതിനേക്കാൾ കുറവാണ്, കൂടാതെ ഇവയ്ക്ക് സമാനമാണ്:
-
പാക്കേജിംഗ് + സെർവിംഗ് + സ്കെയിലിംഗ് + മോണിറ്ററിംഗ് + ഗവേണൻസ് + റോൾബാക്ക് ( ബ്ലൂ-ഗ്രീൻ ഡിപ്ലോയ്മെന്റ് )
ഒരു റസ്റ്റോറന്റ് തുറക്കുന്നത് പോലെയാണ് ഇത്. മികച്ച ഒരു വിഭവം പാചകം ചെയ്യുന്നത് പ്രധാനമാണ്, തീർച്ചയായും. പക്ഷേ, നിങ്ങൾക്ക് ഇപ്പോഴും കെട്ടിടം, ജീവനക്കാർ, റഫ്രിജറേഷൻ, മെനുകൾ, വിതരണ ശൃംഖല, വാക്ക്-ഇൻ ഫ്രീസറിൽ കരയാതെ അത്താഴ തിരക്ക് കൈകാര്യം ചെയ്യാനുള്ള ഒരു മാർഗം എന്നിവ ആവശ്യമാണ്. ഒരു തികഞ്ഞ രൂപകമല്ല… പക്ഷേ നിങ്ങൾക്ക് അത് മനസ്സിലാകും. 🍝
2) “AI മോഡലുകൾ എങ്ങനെ വിന്യസിക്കാം” എന്നതിന്റെ ഒരു നല്ല പതിപ്പ് എന്താണ് ✅
ഒരു "നല്ല വിന്യാസം" ഏറ്റവും നല്ല രീതിയിൽ വിരസമാണ്. സമ്മർദ്ദത്തിൽ അത് പ്രവചനാതീതമായി പ്രവർത്തിക്കും, അങ്ങനെയല്ലെങ്കിൽ, നിങ്ങൾക്ക് അത് വേഗത്തിൽ നിർണ്ണയിക്കാൻ കഴിയും.
"നല്ലത്" സാധാരണയായി ഇങ്ങനെയായിരിക്കും:
-
പുനരുൽപ്പാദിപ്പിക്കാവുന്ന ബിൽഡുകൾ
ഒരേ കോഡ് + ഒരേ ഡിപൻഡൻസികൾ = ഒരേ പെരുമാറ്റം. എന്റെ ലാപ്ടോപ്പിൽ സ്പൂക്കി "പ്രവർത്തിക്കുന്നില്ല" വൈബുകൾ 👻 ( ഡോക്കർ: കണ്ടെയ്നർ എന്താണ്? ) -
ക്ലിയർ ഇന്റർഫേസ് കോൺട്രാക്റ്റ്
ഇൻപുട്ടുകൾ, ഔട്ട്പുട്ടുകൾ, സ്കീമകൾ, എഡ്ജ് കേസുകൾ എന്നിവ നിർവചിച്ചിരിക്കുന്നു. പുലർച്ചെ 2 മണിക്ക് സർപ്രൈസ് തരങ്ങളൊന്നുമില്ല. ( ഓപ്പൺഎപിഐ: ഓപ്പൺഎപിഐ എന്താണ്?, ജെഎസ്ഒഎൻ സ്കീമ ) -
യാഥാർത്ഥ്യവുമായി പൊരുത്തപ്പെടുന്ന പ്രകടനം
ഉൽപ്പാദനം പോലുള്ള ഹാർഡ്വെയറിലും റിയലിസ്റ്റിക് പേലോഡുകളിലും അളക്കുന്ന ലേറ്റൻസിയും ത്രൂപുട്ടും. -
പല്ലുകൾ ഉപയോഗിച്ച് നിരീക്ഷിക്കൽ
മെട്രിക്കുകൾ, ലോഗുകൾ, ട്രെയ്സുകൾ, ഡ്രിഫ്റ്റ് പരിശോധനകൾ എന്നിവ പ്രവർത്തനത്തെ ട്രിഗർ ചെയ്യുന്നു (ആരും തുറക്കാത്ത ഡാഷ്ബോർഡുകൾ മാത്രമല്ല). ( SRE ബുക്ക്: മോണിറ്ററിംഗ് ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റങ്ങൾ ) -
സുരക്ഷിതമായ റോൾഔട്ട് തന്ത്രം
കാനറി അല്ലെങ്കിൽ നീല-പച്ച, എളുപ്പത്തിലുള്ള റോൾബാക്ക്, പ്രാർത്ഥന ആവശ്യമില്ലാത്ത പതിപ്പിംഗ്. ( കാനറി റിലീസ് , നീല-പച്ച വിന്യാസം ) -
ചെലവ് അവബോധം
ബിൽ ഒരു ഫോൺ നമ്പർ പോലെ തോന്നുന്നതുവരെ "വേഗത" മികച്ചതാണ് 📞💸 -
സീക്രട്ട്സ് മാനേജ്മെന്റ്, ആക്സസ് കൺട്രോൾ, PII കൈകാര്യം ചെയ്യൽ, ഓഡിറ്റബിലിറ്റി എന്നിവയിൽ സുരക്ഷയും സ്വകാര്യതയും ഉൾപ്പെടുത്തിയിട്ടുണ്ട് കുബേർനെറ്റ്സ് സീക്രട്ട്സ് , NIST SP 800-122 )
നിങ്ങൾക്ക് അവ സ്ഥിരമായി ചെയ്യാൻ കഴിയുമെങ്കിൽ, നിങ്ങൾ മിക്ക ടീമുകളേക്കാളും മുന്നിലാണ്. നമുക്ക് സത്യം പറയാം.
3) ശരിയായ വിന്യാസ പാറ്റേൺ തിരഞ്ഞെടുക്കുക (ഉപകരണങ്ങൾ തിരഞ്ഞെടുക്കുന്നതിന് മുമ്പ്) 🧠
തത്സമയ API അനുമാനം ⚡
ഏറ്റവും മികച്ചത് എപ്പോൾ:
-
ഉപയോക്താക്കൾക്ക് തൽക്ഷണ ഫലങ്ങൾ ആവശ്യമാണ് (ശുപാർശകൾ, വഞ്ചന പരിശോധനകൾ, ചാറ്റ്, വ്യക്തിഗതമാക്കൽ)
-
ഒരു അഭ്യർത്ഥന സമയത്ത് തീരുമാനങ്ങൾ എടുക്കണം
ശ്രദ്ധിക്കേണ്ട കാര്യങ്ങൾ:
-
p99 ലേറ്റൻസി ശരാശരിയേക്കാൾ പ്രധാനമാണ് ( ദി ടെയിൽ അറ്റ് സ്കെയിൽ , SRE ബുക്ക്: മോണിറ്ററിംഗ് ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റംസ് )
-
ഓട്ടോസ്കെയിലിംഗിന് ശ്രദ്ധാപൂർവ്വം ട്യൂൺ ചെയ്യേണ്ടതുണ്ട് ( കുബേർനെറ്റസ് ഹൊറിസോണ്ടൽ പോഡ് ഓട്ടോസ്കെയിലിംഗ് )
-
കോൾഡ് സ്റ്റാർട്ടുകൾ ഒളിഞ്ഞുനോക്കാം... ഒരു പൂച്ച മേശയിൽ നിന്ന് ഗ്ലാസ് തള്ളുന്നത് പോലെ ( AWS Lambda execution environment lifecycle )
ബാച്ച് സ്കോറിംഗ് 📦
ഏറ്റവും മികച്ചത് എപ്പോൾ:
-
പ്രവചനങ്ങൾ വൈകിപ്പിക്കാം (ഓവർനൈറ്റ് റിസ്ക് സ്കോറിംഗ്, ചർൺ പ്രവചനം, ഇടിഎൽ സമ്പുഷ്ടീകരണം) ( ആമസോൺ സേജ് മേക്കർ ബാച്ച് ട്രാൻസ്ഫോം )
-
നിങ്ങൾക്ക് ചെലവ് കുറഞ്ഞതും ലളിതമായ പ്രവർത്തനങ്ങളും വേണം
ശ്രദ്ധിക്കേണ്ട കാര്യങ്ങൾ:
-
ഡാറ്റ ഫ്രഷ്നെസ്സും ബാക്ക്ഫില്ലുകളും
-
പരിശീലനവുമായി പൊരുത്തപ്പെടുന്ന ഫീച്ചർ ലോജിക് നിലനിർത്തൽ
സ്ട്രീമിംഗ് അനുമാനം 🌊
ഏറ്റവും മികച്ചത് എപ്പോൾ:
-
നിങ്ങൾ ഇവന്റുകൾ തുടർച്ചയായി പ്രോസസ്സ് ചെയ്യുന്നു (IoT, ക്ലിക്ക്സ്ട്രീമുകൾ, മോണിറ്ററിംഗ് സിസ്റ്റങ്ങൾ)
-
കർശനമായ അഭ്യർത്ഥന-പ്രതികരണമില്ലാതെ നിങ്ങൾക്ക് തത്സമയ തീരുമാനങ്ങൾ വേണം
ശ്രദ്ധിക്കേണ്ട കാര്യങ്ങൾ:
-
കൃത്യമായി-ഒരിക്കൽ vs കുറഞ്ഞത്-ഒരിക്കൽ സെമാന്റിക്സ് ( ക്ലൗഡ് ഡാറ്റഫ്ലോ: കൃത്യമായി-ഒരിക്കൽ vs കുറഞ്ഞത്-ഒരിക്കൽ )
-
സംസ്ഥാന മാനേജ്മെന്റ്, പുനഃശ്രമങ്ങൾ, വിചിത്രമായ തനിപ്പകർപ്പുകൾ
എഡ്ജ് വിന്യാസം 📱
ഏറ്റവും മികച്ചത് എപ്പോൾ:
-
നെറ്റ്വർക്ക് ആശ്രിതത്വമില്ലാതെ കുറഞ്ഞ ലേറ്റൻസി ( LiteRT ഓൺ-ഡിവൈസ് ഇൻഫറൻസ് )
-
സ്വകാര്യതാ നിയന്ത്രണങ്ങൾ
-
ഓഫ്ലൈൻ പരിതസ്ഥിതികൾ
ശ്രദ്ധിക്കേണ്ട കാര്യങ്ങൾ:
-
മോഡൽ വലുപ്പം, ബാറ്ററി, ക്വാണ്ടൈസേഷൻ, ഹാർഡ്വെയർ ഫ്രാഗ്മെന്റേഷൻ ( പരിശീലനത്തിനു ശേഷമുള്ള ക്വാണ്ടൈസേഷൻ (ടെൻസർഫ്ലോ മോഡൽ ഒപ്റ്റിമൈസേഷൻ) )
-
അപ്ഡേറ്റുകൾ കൂടുതൽ ബുദ്ധിമുട്ടാണ് (നിങ്ങൾക്ക് 30 പതിപ്പുകൾ കാട്ടിൽ വേണ്ട...)
ആദ്യം പാറ്റേൺ തിരഞ്ഞെടുക്കുക, തുടർന്ന് സ്റ്റാക്ക് തിരഞ്ഞെടുക്കുക. അല്ലെങ്കിൽ നിങ്ങൾ ഒരു ചതുരാകൃതിയിലുള്ള മോഡലിനെ ഒരു റൗണ്ട് റൺടൈമിലേക്ക് നിർബന്ധിതമാക്കും. അല്ലെങ്കിൽ അതുപോലെയുള്ള എന്തെങ്കിലും. 😬
4) ഉൽപാദനവുമായുള്ള സമ്പർക്കം നിലനിൽക്കുന്നതിനായി മോഡൽ പാക്കേജിംഗ് ചെയ്യുക 📦🧯
ഇവിടെയാണ് മിക്ക "എളുപ്പമുള്ള വിന്യാസങ്ങളും" നിശബ്ദമായി മരിക്കുന്നത്.
പതിപ്പ് എല്ലാം (അതെ, എല്ലാം)
-
മോഡൽ ആർട്ടിഫാക്റ്റ് (ഭാരം, ഗ്രാഫ്, ടോക്കണൈസർ, ലേബൽ മാപ്പുകൾ)
-
ഫീച്ചർ ലോജിക് (പരിവർത്തനങ്ങൾ, നോർമലൈസേഷൻ, എൻകോഡറുകൾ)
-
അനുമാന കോഡ് (പ്രോസസ്സിംഗിന് മുമ്പോ/ശേഷമോ)
-
പരിസ്ഥിതി (പൈത്തൺ, CUDA, സിസ്റ്റം ലിബ്സ്)
ഫലപ്രദമായ ഒരു ലളിതമായ സമീപനം:
-
മോഡലിനെ ഒരു റിലീസ് ആർട്ടിഫാക്റ്റ് പോലെ പരിഗണിക്കുക
-
ഒരു പതിപ്പ് ടാഗ് ഉപയോഗിച്ച് ഇത് സംഭരിക്കുക
-
ഒരു മോഡൽ കാർഡ്-ഇഷ് മെറ്റാഡാറ്റ ഫയൽ ആവശ്യമാണ്: സ്കീമ, മെട്രിക്സ്, പരിശീലന ഡാറ്റ സ്നാപ്പ്ഷോട്ട് കുറിപ്പുകൾ, അറിയപ്പെടുന്ന പരിമിതികൾ ( മോഡൽ റിപ്പോർട്ടിംഗിനായുള്ള മോഡൽ കാർഡുകൾ )
കണ്ടെയ്നറുകൾ സഹായിക്കും, പക്ഷേ അവയെ ആരാധിക്കരുത് 🐳
കണ്ടെയ്നറുകൾ മികച്ചതാണ് കാരണം അവ:
-
ഫ്രീസ് ഡിപൻഡൻസികൾ ( ഡോക്കർ: ഒരു കണ്ടെയ്നർ എന്താണ്? )
-
ബിൽഡുകൾ സ്റ്റാൻഡേർഡ് ചെയ്യുക
-
വിന്യാസ ലക്ഷ്യങ്ങൾ ലളിതമാക്കുക
പക്ഷേ നിങ്ങൾ ഇപ്പോഴും കൈകാര്യം ചെയ്യേണ്ടതുണ്ട്:
-
അടിസ്ഥാന ഇമേജ് അപ്ഡേറ്റുകൾ
-
ജിപിയു ഡ്രൈവറുകളുടെ അനുയോജ്യത
-
സുരക്ഷാ സ്കാനിംഗ്
-
ചിത്രത്തിന്റെ വലുപ്പം (9GB "ഹലോ വേൾഡ്" ആർക്കും ഇഷ്ടമല്ല) ( ഡോക്കർ നിർമ്മിക്കുന്ന മികച്ച രീതികൾ )
ഇന്റർഫേസ് സ്റ്റാൻഡേർഡ് ചെയ്യുക
നിങ്ങളുടെ ഇൻപുട്ട്/ഔട്ട്പുട്ട് ഫോർമാറ്റ് നേരത്തെ തീരുമാനിക്കുക:
-
ലാളിത്യത്തിനായുള്ള JSON (വേഗത കുറഞ്ഞതും എന്നാൽ സൗഹൃദപരവുമായ) ( JSON സ്കീമ )
-
പ്രകടനത്തിനായുള്ള പ്രോട്ടോബഫ് ( പ്രോട്ടോക്കോൾ ബഫറുകളുടെ അവലോകനം )
-
ഇമേജുകൾ/ഓഡിയോ (കൂടാതെ മെറ്റാഡാറ്റ) എന്നിവയ്ക്കായുള്ള ഫയൽ അധിഷ്ഠിത പേലോഡുകൾ
ദയവായി ഇൻപുട്ടുകൾ സാധൂകരിക്കുക. “എന്തുകൊണ്ടാണ് ഇത് അസംബന്ധം തിരികെ നൽകുന്നത്” എന്ന ടിക്കറ്റുകളുടെ പ്രധാന കാരണം അസാധുവായ ഇൻപുട്ടുകളാണ്. ( OpenAPI: എന്താണ് OpenAPI? , JSON Schema )
5) സെർവിംഗ് ഓപ്ഷനുകൾ - "ലളിതമായ API" മുതൽ പൂർണ്ണ മോഡൽ സെർവറുകൾ വരെ 🧰
രണ്ട് പൊതു വഴികളുണ്ട്:
ഓപ്ഷൻ എ: ആപ്പ് സെർവർ + അനുമാന കോഡ് (FastAPI-ശൈലിയിലുള്ള സമീപനം) 🧪
മോഡൽ ലോഡ് ചെയ്ത് പ്രവചനങ്ങൾ തിരികെ നൽകുന്ന ഒരു API നിങ്ങൾ എഴുതുന്നു. ( FastAPI )
പ്രോസ്:
-
ഇഷ്ടാനുസൃതമാക്കാൻ എളുപ്പമാണ്
-
ലളിതമായ മോഡലുകൾക്കോ പ്രാരംഭ ഘട്ട ഉൽപ്പന്നങ്ങൾക്കോ മികച്ചത്
-
ലളിതമായ ഓത്ത്, റൂട്ടിംഗ്, സംയോജനം
ദോഷങ്ങൾ:
-
നിങ്ങൾക്ക് പെർഫോമൻസ് ട്യൂണിംഗ് സ്വന്തമാണ് (ബാച്ചിംഗ്, ത്രെഡിംഗ്, GPU ഉപയോഗം)
-
നിങ്ങൾ ചില ചക്രങ്ങൾ പുനർനിർമ്മിക്കും, ഒരുപക്ഷേ ആദ്യം മോശമായിരിക്കാം
ഓപ്ഷൻ ബി: മോഡൽ സെർവർ (ടോർച്ച് സെർവ് / ട്രൈറ്റൺ-സ്റ്റൈൽ സമീപനം) 🏎️
കൈകാര്യം ചെയ്യുന്ന പ്രത്യേക സെർവറുകൾ:
-
ബാച്ചിംഗ് ( ട്രൈറ്റൺ: ഡൈനാമിക് ബാച്ചിംഗ് & കൺകറന്റ് മോഡൽ എക്സിക്യൂഷൻ )
-
കൺകറൻസി ( ട്രൈറ്റൺ: കൺകറന്റ് മോഡൽ എക്സിക്യൂഷൻ )
-
ഒന്നിലധികം മോഡലുകൾ
-
ജിപിയു കാര്യക്ഷമത
-
സ്റ്റാൻഡേർഡ് എൻഡ്പോയിന്റുകൾ ( ടോർച്ച്സെർവ് ഡോക്സ് , ട്രൈറ്റൺ ഇൻഫെറൻസ് സെർവർ ഡോക്സ് )
പ്രോസ്:
-
മികച്ച പ്രകടന പാറ്റേണുകൾ
-
സെർവിംഗും ബിസിനസ് ലോജിക്കും തമ്മിലുള്ള വ്യക്തമായ വേർതിരിവ്
ദോഷങ്ങൾ:
-
അധിക പ്രവർത്തന സങ്കീർണ്ണത
-
ഷവറിന്റെ താപനില ക്രമീകരിക്കുന്നത് പോലെ, കോൺഫിഗറേഷൻ... വിചിത്രമായി തോന്നാം
ഒരു ഹൈബ്രിഡ് പാറ്റേൺ വളരെ സാധാരണമാണ്:
-
അനുമാനത്തിനായുള്ള മോഡൽ സെർവർ ( ട്രൈറ്റൺ: ഡൈനാമിക് ബാച്ചിംഗ് )
-
ഓത്ത്, അഭ്യർത്ഥന രൂപപ്പെടുത്തൽ, ബിസിനസ് നിയമങ്ങൾ, നിരക്ക് പരിമിതപ്പെടുത്തൽ ( API ഗേറ്റ്വേ ത്രോട്ടിലിംഗ് )
6) താരതമ്യ പട്ടിക - വിന്യസിക്കാനുള്ള ജനപ്രിയ വഴികൾ (സത്യസന്ധമായ വികാരങ്ങളോടെ) 📊😌
AI മോഡലുകൾ എങ്ങനെ വിന്യസിക്കാമെന്ന് കണ്ടെത്തുമ്പോൾ ആളുകൾ യഥാർത്ഥത്തിൽ ഉപയോഗിക്കുന്ന ഓപ്ഷനുകളുടെ ഒരു പ്രായോഗിക സ്നാപ്പ്ഷോട്ട് ചുവടെയുണ്ട് .
| ഉപകരണം / സമീപനം | പ്രേക്ഷകർ | വില | എന്തുകൊണ്ട് ഇത് പ്രവർത്തിക്കുന്നു |
|---|---|---|---|
| ഡോക്കർ + ഫാസ്റ്റ്എപിഐ (അല്ലെങ്കിൽ സമാനമായത്) | ചെറിയ ടീമുകൾ, സ്റ്റാർട്ടപ്പുകൾ | സൗജന്യം | ലളിതം, വഴക്കമുള്ളത്, വേഗത്തിൽ ഷിപ്പ് ചെയ്യാൻ കഴിയും - എന്നിരുന്നാലും എല്ലാ സ്കെയിലിംഗ് പ്രശ്നങ്ങളും നിങ്ങൾക്ക് "അനുഭവപ്പെടും" ( ഡോക്കർ , ഫാസ്റ്റ്എപിഐ ) |
| കുബേർനെറ്റസ് (DIY) | പ്ലാറ്റ്ഫോം ടീമുകൾ | ഇൻഫ്രാ-ആശ്രിത | നിയന്ത്രണം + സ്കേലബിളിറ്റി... കൂടാതെ, ധാരാളം നോബുകൾ, അവയിൽ ചിലത് ശപിക്കപ്പെട്ടതാണ് ( കുബേർനെറ്റസ് എച്ച്പിഎ ) |
| മാനേജ്ഡ് ML പ്ലാറ്റ്ഫോം (ക്ലൗഡ് ML സേവനം) | കുറച്ച് പ്രവർത്തനങ്ങൾ ആഗ്രഹിക്കുന്ന ടീമുകൾ | ഉപയോഗാനുസരണം പണമടയ്ക്കുക | ബിൽറ്റ്-ഇൻ ഡിപ്ലോയ്മെന്റ് വർക്ക്ഫ്ലോകൾ, മോണിറ്ററിംഗ് ഹുക്കുകൾ - എപ്പോഴും ഓൺ ആയ എൻഡ്പോയിന്റുകൾക്ക് ചിലപ്പോൾ വില കൂടുതലാണ് ( വെർട്ടെക്സ് AI ഡിപ്ലോയ്മെന്റ് , സേജ് മേക്കർ റിയൽ-ടൈം ഇൻഫറൻസ് ) |
| സെർവർലെസ് ഫംഗ്ഷനുകൾ (നേരിയ അനുമാനത്തിന്) | ഇവന്റ് അധിഷ്ഠിത ആപ്പുകൾ | ഉപയോഗത്തിന് പണം നൽകുക | സ്പൈക്കി ട്രാഫിക്കിന് വളരെ അനുയോജ്യം - പക്ഷേ കോൾഡ് സ്റ്റാർട്ടുകളും മോഡൽ വലുപ്പവും നിങ്ങളുടെ ദിവസം നശിപ്പിക്കും 😬 ( AWS Lambda കോൾഡ് സ്റ്റാർട്ട്സ് ) |
| എൻവിഡിയ ട്രൈറ്റൺ ഇൻഫെരൻസ് സെർവർ | പ്രകടനത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ടീമുകൾ | സ്വതന്ത്ര സോഫ്റ്റ്വെയർ, അടിസ്ഥാന ചെലവ് | മികച്ച GPU ഉപയോഗം, ബാച്ചിംഗ്, മൾട്ടി-മോഡൽ - കോൺഫിഗറേഷന് ക്ഷമ ആവശ്യമാണ് ( ട്രൈറ്റൺ: ഡൈനാമിക് ബാച്ചിംഗ് ) |
| ടോർച്ച് സെർവ് | പൈടോർച്ച്-ഹെവി ടീമുകൾ | സ്വതന്ത്ര സോഫ്റ്റ്വെയർ | മാന്യമായ ഡിഫോൾട്ട് സെർവിംഗ് പാറ്റേണുകൾ - ഉയർന്ന സ്കെയിലിനായി ട്യൂണിംഗ് ആവശ്യമായി വന്നേക്കാം ( ടോർച്ച്സെർവ് ഡോക്സ് ) |
| ബെന്റോഎംഎൽ (പാക്കേജിംഗ് + സെർവിംഗ്) | എംഎൽ എഞ്ചിനീയർമാർ | സൗജന്യ കോർ, അധിക സൗകര്യങ്ങൾ വ്യത്യാസപ്പെടാം | സുഗമമായ പാക്കേജിംഗ്, മികച്ച ഡെവലപ്പർ അനുഭവം - നിങ്ങൾക്ക് ഇപ്പോഴും ഇൻഫ്രാ ചോയ്സുകൾ ആവശ്യമാണ് ( വിന്യാസത്തിനായി ബെന്റോഎംഎൽ പാക്കേജിംഗ് ) |
| റേ സെർവ് | ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റങ്ങൾ ആളുകളേ | ഇൻഫ്രാ-ആശ്രിത | തിരശ്ചീനമായി സ്കെയിൽ ചെയ്യുന്നു, പൈപ്പ്ലൈനുകൾക്ക് നല്ലതാണ് - ചെറിയ പ്രോജക്റ്റുകൾക്ക് "വലുതായി" തോന്നുന്നു ( റേ സെർവ് ഡോക്സ് ) |
പട്ടിക കുറിപ്പ്: "ഫ്രീ-ഇഷ്" എന്നത് യഥാർത്ഥ ജീവിത പദമാണ്. കാരണം അത് ഒരിക്കലും സൗജന്യമല്ല. നിങ്ങളുടെ ഉറക്കമാണെങ്കിൽ പോലും എവിടെയെങ്കിലും എപ്പോഴും ഒരു ബില്ലുണ്ടാകും. 😴
7) പ്രകടനവും സ്കെയിലിംഗും - ലേറ്റൻസി, ത്രൂപുട്ട്, സത്യം 🏁
പ്രകടന ട്യൂണിംഗിലാണ് വിന്യാസം ഒരു ക്രാഫ്റ്റായി മാറുന്നത്. ലക്ഷ്യം "വേഗതയുള്ളതല്ല". ലക്ഷ്യം സ്ഥിരമായി വേണ്ടത്ര വേഗതയുള്ളതാണ് .
പ്രധാനപ്പെട്ട പ്രധാന മെട്രിക്കുകൾ
-
p50 ലേറ്റൻസി : സാധാരണ ഉപയോക്തൃ അനുഭവം
-
p95 / p99 ലേറ്റൻസി : കോപം ഉളവാക്കുന്ന വാൽ ( ദി ടെയിൽ അറ്റ് സ്കെയിൽ , SRE ബുക്ക്: മോണിറ്ററിംഗ് ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റംസ് )
-
ത്രൂപുട്ട് : സെക്കൻഡിൽ അഭ്യർത്ഥനകൾ (അല്ലെങ്കിൽ ജനറേറ്റീവ് മോഡലുകൾക്ക് സെക്കൻഡിൽ ടോക്കണുകൾ)
-
പിശക് നിരക്ക് : വ്യക്തമാണ്, പക്ഷേ ചിലപ്പോൾ അവഗണിക്കപ്പെടുന്നു
-
റിസോഴ്സ് ഉപയോഗം : CPU, GPU, മെമ്മറി, VRAM ( SRE ബുക്ക്: മോണിറ്ററിംഗ് ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റങ്ങൾ )
വലിക്കാൻ ഉപയോഗിക്കുന്ന സാധാരണ ലിവറുകൾ
-
ബാച്ചിംഗ്
കംപൈൻ അഭ്യർത്ഥനകൾ. ത്രൂപുട്ടിന് മികച്ചതാണ്, അമിതമായി ഉപയോഗിച്ചാൽ ലേറ്റൻസിയെ ബാധിക്കും. ( ട്രൈറ്റൺ: ഡൈനാമിക് ബാച്ചിംഗ് ) -
ക്വാണ്ടൈസേഷൻ
കുറഞ്ഞ കൃത്യത (INT8 പോലെ) അനുമാനത്തെ വേഗത്തിലാക്കുകയും മെമ്മറി കുറയ്ക്കുകയും ചെയ്യും. കൃത്യതയെ ചെറുതായി കുറച്ചേക്കാം. ചിലപ്പോൾ അല്ല, അതിശയകരമെന്നു പറയട്ടെ. ( പരിശീലനത്തിനു ശേഷമുള്ള ക്വാണ്ടൈസേഷൻ ) -
കംപൈലേഷൻ / ഒപ്റ്റിമൈസേഷൻ
ONNX എക്സ്പോർട്ട്, ഗ്രാഫ് ഒപ്റ്റിമൈസറുകൾ, ടെൻസർആർടി പോലുള്ള ഫ്ലോകൾ. ശക്തമാണ്, പക്ഷേ ഡീബഗ്ഗിംഗ് കൂടുതൽ രൂക്ഷമാകും 🌶️ ( ONNX , ONNX റൺടൈം മോഡൽ ഒപ്റ്റിമൈസേഷനുകൾ ) -
കാഷിംഗ്
ഇൻപുട്ടുകൾ ആവർത്തിച്ചാൽ (അല്ലെങ്കിൽ നിങ്ങൾക്ക് എംബെഡിംഗുകൾ കാഷെ ചെയ്യാൻ കഴിയും), നിങ്ങൾക്ക് ധാരാളം ലാഭിക്കാൻ കഴിയും. -
ഓട്ടോസ്കെയിലിംഗ്
സ്കെയിൽ. ക്യൂ ഡെപ്ത് കുറച്ചുകാണുന്നു. ( കുബേർനെറ്റസ് എച്ച്പിഎ )
വിചിത്രവും എന്നാൽ സത്യവുമായ ഒരു നുറുങ്ങ്: ഉൽപ്പാദനം പോലുള്ള പേലോഡ് വലുപ്പങ്ങൾ ഉപയോഗിച്ച് അളക്കുക. ചെറിയ ടെസ്റ്റ് പേലോഡുകൾ നിങ്ങളോട് കള്ളം പറയുന്നു. അവർ മാന്യമായി പുഞ്ചിരിക്കുകയും പിന്നീട് നിങ്ങളെ ഒറ്റിക്കൊടുക്കുകയും ചെയ്യും.
8) നിരീക്ഷണവും നിരീക്ഷണക്ഷമതയും - അന്ധമായി പറക്കരുത് 👀📈
മോഡൽ മോണിറ്ററിംഗ് വെറും അപ്ടൈം മോണിറ്ററിംഗ് അല്ല. നിങ്ങൾക്ക് അറിയാൻ താൽപ്പര്യമുള്ളത്:
-
സേവനം ആരോഗ്യകരമാണ്
-
മോഡൽ പെരുമാറുന്നു
-
ഡാറ്റ ഒഴുകിപ്പോകുന്നു
-
പ്രവചനങ്ങളുടെ വിശ്വാസ്യത കുറഞ്ഞുവരികയാണ് ( വെർട്ടെക്സ് AI മോഡൽ മോണിറ്ററിംഗ് അവലോകനം , ആമസോൺ സേജ് മേക്കർ മോഡൽ മോണിറ്റർ )
എന്താണ് നിരീക്ഷിക്കേണ്ടത് (ഏറ്റവും കുറഞ്ഞ പ്രായോഗിക സെറ്റ്)
സേവന ആരോഗ്യം
-
അഭ്യർത്ഥന എണ്ണം, പിശക് നിരക്ക്, ലേറ്റൻസി വിതരണങ്ങൾ ( SRE പുസ്തകം: മോണിറ്ററിംഗ് ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റങ്ങൾ )
-
സാച്ചുറേഷൻ (സിപിയു/ജിപിയു/മെമ്മറി)
-
ക്യൂവിന്റെ നീളവും ക്യൂവിൽ ഇരിക്കുന്ന സമയവും
മാതൃകാ പെരുമാറ്റം
-
ഇൻപുട്ട് ഫീച്ചർ വിതരണങ്ങൾ (അടിസ്ഥാന സ്ഥിതിവിവരക്കണക്കുകൾ)
-
എംബെഡിംഗ് മാനദണ്ഡങ്ങൾ (എംബെഡിംഗ് മോഡലുകൾക്ക്)
-
ഔട്ട്പുട്ട് വിതരണങ്ങൾ (ആത്മവിശ്വാസം, ക്ലാസ് മിക്സ്, സ്കോർ ശ്രേണികൾ)
-
ഇൻപുട്ടുകളിൽ അപാകത കണ്ടെത്തൽ (ഗാർബേജ് ഇൻ, ഗാർബേജ് ഔട്ട്)
ഡാറ്റ ഡ്രിഫ്റ്റും കൺസെപ്റ്റ് ഡ്രിഫ്റ്റും
-
ഡ്രിഫ്റ്റ് അലേർട്ടുകൾ പ്രവർത്തനക്ഷമമായിരിക്കണം ( വെർട്ടെക്സ് AI: മോണിറ്റർ ഫീച്ചർ സ്ക്യൂ ആൻഡ് ഡ്രിഫ്റ്റ് , ആമസോൺ സേജ് മേക്കർ മോഡൽ മോണിറ്റർ )
-
അലേർട്ട് സ്പാം ഒഴിവാക്കുക - അത് ആളുകളെ എല്ലാം അവഗണിക്കാൻ പഠിപ്പിക്കുന്നു
ലോഗിംഗ്, പക്ഷേ "എല്ലാം എന്നെന്നേക്കുമായി ലോഗ് ചെയ്യുക" എന്ന സമീപനമല്ല 🪵
ലോഗ്:
-
അഭ്യർത്ഥന ഐഡികൾ
-
മോഡൽ പതിപ്പ്
-
സ്കീമ വാലിഡേഷൻ ഫലങ്ങൾ ( OpenAPI: OpenAPI എന്താണ്? )
-
ഏറ്റവും കുറഞ്ഞ ഘടനാപരമായ പേലോഡ് മെറ്റാഡാറ്റ (റോ PII അല്ല) ( NIST SP 800-122 )
സ്വകാര്യതയെക്കുറിച്ച് ശ്രദ്ധാലുവായിരിക്കുക. നിങ്ങളുടെ ലോഗുകൾ നിങ്ങളുടെ ഡാറ്റ ചോർച്ചയായി മാറാൻ നിങ്ങൾ ആഗ്രഹിക്കുന്നില്ല. ( NIST SP 800-122 )
9) CI/CD, റോൾഔട്ട് തന്ത്രങ്ങൾ - മോഡലുകളെ യഥാർത്ഥ റിലീസുകൾ പോലെ പരിഗണിക്കുക 🧱🚦
വിശ്വസനീയമായ വിന്യാസങ്ങൾ വേണമെങ്കിൽ, ഒരു പൈപ്പ്ലൈൻ നിർമ്മിക്കുക. ലളിതമായ ഒന്ന് പോലും.
ഒരു ഉറച്ച ഒഴുക്ക്
-
പ്രീപ്രോസസ്സിംഗിനും പോസ്റ്റ്പ്രോസസ്സിംഗിനുമുള്ള യൂണിറ്റ് ടെസ്റ്റുകൾ
-
അറിയപ്പെടുന്ന ഒരു ഇൻപുട്ട്-ഔട്ട്പുട്ട് "ഗോൾഡൻ സെറ്റ്" ഉപയോഗിച്ചുള്ള ഇന്റഗ്രേഷൻ ടെസ്റ്റ്
-
ലോഡ് ടെസ്റ്റ് ബേസ്ലൈൻ (ഭാരം കുറഞ്ഞ ഒന്ന് പോലും)
-
ആർട്ടിഫാക്റ്റ് നിർമ്മിക്കുക (കണ്ടെയ്നർ + മോഡൽ) ( ഡോക്കർ നിർമ്മിക്കുന്ന മികച്ച രീതികൾ )
-
സ്റ്റേജിംഗിലേക്ക് വിന്യസിക്കുക
-
കാനറി റിലീസ് ഒരു ചെറിയ ട്രാഫിക്കിലേക്ക് ( കാനറി റിലീസ് )
-
ക്രമേണ വർദ്ധിപ്പിക്കുക
-
കീ ത്രെഷോൾഡുകളിൽ ഓട്ടോമാറ്റിക് റോൾബാക്ക് ( നീല-പച്ച വിന്യാസം )
നിങ്ങളുടെ മനസ്സമാധാനം സംരക്ഷിക്കുന്ന റോൾഔട്ട് പാറ്റേണുകൾ
-
കാനറി : ആദ്യം 1-5% ട്രാഫിക്കിലേക്ക് റിലീസ് ചെയ്യുക ( കാനറി റിലീസ് )
-
നീല-പച്ച : പഴയ പതിപ്പിനൊപ്പം പുതിയ പതിപ്പ് പ്രവർത്തിപ്പിക്കുക, തയ്യാറാകുമ്പോൾ മറിച്ചിടുക ( നീല-പച്ച വിന്യാസം )
-
ഷാഡോ ടെസ്റ്റിംഗ് : പുതിയ മോഡലിലേക്ക് യഥാർത്ഥ ട്രാഫിക് അയയ്ക്കുക, പക്ഷേ ഫലങ്ങൾ ഉപയോഗിക്കരുത് (മൂല്യനിർണ്ണയത്തിന് മികച്ചത്) ( മൈക്രോസോഫ്റ്റ്: ഷാഡോ ടെസ്റ്റിംഗ് )
നിങ്ങളുടെ അന്തിമ പോയിന്റുകളെയോ റൂട്ടിനെയോ മോഡൽ പതിപ്പ് അനുസരിച്ച് പതിപ്പിക്കുക. ഭാവിയിൽ നിങ്ങൾ നന്ദി പറയും. നിലവിൽ നിങ്ങൾ നന്ദി പറയും, പക്ഷേ നിശബ്ദമായി.
10) സുരക്ഷ, സ്വകാര്യത, "ദയവായി കാര്യങ്ങൾ ചോർത്തരുത്" 🔐🙃
ക്ഷണിക്കപ്പെടാത്ത അതിഥിയെപ്പോലെ, സെക്യൂരിറ്റി വൈകി എത്താൻ സാധ്യതയുണ്ട്. നേരത്തെ ക്ഷണിക്കുന്നതാണ് നല്ലത്.
പ്രായോഗിക ചെക്ക്ലിസ്റ്റ്
-
ആധികാരികതയും അംഗീകാരവും (ആർക്കാണ് മോഡലിനെ വിളിക്കാൻ കഴിയുക?)
-
നിരക്ക് പരിമിതപ്പെടുത്തൽ (ദുരുപയോഗത്തിൽ നിന്നും ആകസ്മികമായ കൊടുങ്കാറ്റുകളിൽ നിന്നും സംരക്ഷിക്കുക) ( API ഗേറ്റ്വേ ത്രോട്ടിലിംഗ് )
-
രഹസ്യ മാനേജ്മെന്റ് (കോഡിൽ കീകളില്ല, കോൺഫിഗറേഷൻ ഫയലുകളിലും കീകളില്ല...) ( AWS രഹസ്യ മാനേജർ , കുബേർനെറ്റ്സ് രഹസ്യങ്ങൾ )
-
നെറ്റ്വർക്ക് നിയന്ത്രണങ്ങൾ (സ്വകാര്യ സബ്നെറ്റുകൾ, സർവീസ്-ടു-സർവീസ് നയങ്ങൾ)
-
ഓഡിറ്റ് ലോഗുകൾ (പ്രത്യേകിച്ച് സെൻസിറ്റീവ് പ്രവചനങ്ങൾക്ക്)
-
ഡാറ്റ മിനിമൈസേഷൻ (നിങ്ങൾക്ക് ആവശ്യമുള്ളത് മാത്രം സംഭരിക്കുക) ( NIST SP 800-122 )
മോഡൽ വ്യക്തിഗത ഡാറ്റയെ സ്പർശിച്ചാൽ:
-
റിഡാക്റ്റ് അല്ലെങ്കിൽ ഹാഷ് ഐഡന്റിഫയറുകൾ
-
അസംസ്കൃത പേലോഡുകൾ ലോഗ് ചെയ്യുന്നത് ഒഴിവാക്കുക ( NIST SP 800-122 )
-
നിലനിർത്തൽ നിയമങ്ങൾ നിർവചിക്കുക
-
ഡോക്യുമെന്റ് ഡാറ്റ ഫ്ലോ (ബോറടിപ്പിക്കുന്ന, പക്ഷേ സംരക്ഷിതമായ)
കൂടാതെ, ജനറേറ്റീവ് മോഡലുകൾക്ക് വേഗത്തിലുള്ള കുത്തിവയ്പ്പും ഔട്ട്പുട്ട് ദുരുപയോഗവും പ്രശ്നമാകാം. ചേർക്കുക: ( LLM ആപ്ലിക്കേഷനുകൾക്കുള്ള OWASP ടോപ്പ് 10 , OWASP: പ്രോംപ്റ്റ് ഇൻജക്ഷൻ )
-
ഇൻപുട്ട് സാനിറ്റൈസേഷൻ നിയമങ്ങൾ
-
ഉചിതമായിടത്ത് ഔട്ട്പുട്ട് ഫിൽട്ടറിംഗ്
-
ടൂൾ കോളിംഗ് അല്ലെങ്കിൽ ഡാറ്റാബേസ് പ്രവർത്തനങ്ങൾക്കുള്ള ഗാർഡ്റെയിലുകൾ
ഒരു സിസ്റ്റവും പൂർണതയുള്ളതല്ല, പക്ഷേ നിങ്ങൾക്ക് അതിനെ ദുർബലത കുറയ്ക്കാൻ കഴിയും.
11) സാധാരണ കെണികൾ (സാധാരണ കെണികൾ എന്നും അറിയപ്പെടുന്നു) 🪤
ക്ലാസിക്കുകൾ ഇതാ:
-
പരിശീലന-സേർവിംഗ് സ്കീ
പരിശീലനത്തിനും ഉൽപാദനത്തിനും ഇടയിൽ പ്രീപ്രോസസ്സിംഗ് വ്യത്യാസപ്പെട്ടിരിക്കുന്നു. പെട്ടെന്ന് കൃത്യത കുറയുന്നു, എന്തുകൊണ്ടെന്ന് ആർക്കും അറിയില്ല. ( ടെൻസർഫ്ലോ ഡാറ്റ വാലിഡേഷൻ: പരിശീലന-സേർവിംഗ് സ്കീ കണ്ടെത്തുക ) -
സ്കീമ സാധൂകരണമില്ല
ഒരു അപ്സ്ട്രീം മാറ്റം എല്ലാം തകർക്കുന്നു. എല്ലായ്പ്പോഴും ഉച്ചത്തിൽ അല്ല... ( JSON സ്കീമ , OpenAPI: OpenAPI എന്താണ്? ) -
ഉപയോക്താക്കൾ ദേഷ്യപ്പെടുമ്പോൾ ടെയിൽ ലേറ്റൻസി p99 അവഗണിക്കുന്നതാണ് ദി ടെയിൽ അറ്റ് സ്കെയിൽ ) -
ചെലവ് മറക്കുന്നത്
GPU എൻഡ്പോയിന്റുകൾ വെറുതെ പ്രവർത്തിക്കുന്നതുപോലെയാണ്, നിങ്ങളുടെ വീട്ടിലെ എല്ലാ ലൈറ്റുകളും കത്തിച്ചു വയ്ക്കുന്നത് പോലെയാണ്, പക്ഷേ ബൾബുകൾ പണം കൊണ്ടാണ് നിർമ്മിച്ചിരിക്കുന്നത്. -
റോൾബാക്ക് പ്ലാൻ ഇല്ല
"ഞങ്ങൾ വീണ്ടും വിന്യസിക്കും" എന്നത് ഒരു പദ്ധതിയല്ല. ട്രെഞ്ച് കോട്ട് ധരിക്കുന്നതിന്റെ പ്രതീക്ഷയാണിത്. ( നീല-പച്ച വിന്യാസം ) -
മോഡൽ തെറ്റായിരിക്കുമ്പോഴും സേവനം പ്രവർത്തനക്ഷമമാകാം. അത് ഒരുപക്ഷേ കൂടുതൽ മോശമാണ്. ( Vertex AI: മോണിറ്റർ ഫീച്ചർ സ്ക്യൂ ആൻഡ് ഡ്രിഫ്റ്റ് , Amazon SageMaker മോഡൽ മോണിറ്റർ )
ഇത് വായിക്കുമ്പോൾ "അതെ, നമുക്ക് അതിൽ രണ്ടെണ്ണം ചെയ്യാം" എന്ന് ചിന്തിക്കുന്നുണ്ടെങ്കിൽ, ക്ലബ്ബിലേക്ക് സ്വാഗതം. ക്ലബ്ബിൽ ലഘുഭക്ഷണങ്ങളും നേരിയ സമ്മർദ്ദവുമുണ്ട്. 🍪
12) സംഗ്രഹം - ഭ്രാന്ത് പിടിക്കാതെ AI മോഡലുകൾ എങ്ങനെ വിന്യസിക്കാം 😄✅
വിന്യസിക്കുന്നതിലൂടെയാണ് AI ഒരു യഥാർത്ഥ ഉൽപ്പന്നമായി മാറുന്നത്. അത് ആകർഷകമല്ല, പക്ഷേ വിശ്വാസം നേടുന്നിടത്താണ്.
ദ്രുത റീക്യാപ്പ്
-
ആദ്യം നിങ്ങളുടെ വിന്യാസ പാറ്റേൺ തീരുമാനിക്കുക (റിയൽ-ടൈം, ബാച്ച്, സ്ട്രീമിംഗ്, എഡ്ജ്) 🧭 ( Amazon SageMaker ബാച്ച് ട്രാൻസ്ഫോം , ക്ലൗഡ് ഡാറ്റാഫ്ലോ സ്ട്രീമിംഗ് മോഡുകൾ , LiteRT ഓൺ-ഡിവൈസ് അനുമാനം )
-
പുനരുൽപാദനക്ഷമതയ്ക്കുള്ള പാക്കേജ് (എല്ലാം പതിപ്പിക്കുക, ഉത്തരവാദിത്തത്തോടെ കണ്ടെയ്നറൈസ് ചെയ്യുക) 📦 ( ഡോക്കർ കണ്ടെയ്നറുകൾ )
-
പ്രകടന ആവശ്യങ്ങൾ അടിസ്ഥാനമാക്കി സെർവിംഗ് തന്ത്രം തിരഞ്ഞെടുക്കുക (ലളിതമായ API vs മോഡൽ സെർവർ) 🧰 ( FastAPI , ട്രൈറ്റൺ: ഡൈനാമിക് ബാച്ചിംഗ് )
-
ശരാശരി മാത്രമല്ല, p95/p99 ലേറ്റൻസി അളക്കുക 🏁 ( സ്കെയിലിലെ വാൽ )
-
സർവീസ് ഹെൽത്തിനും മോഡൽ ബിഹേവിയറിനും മോണിറ്ററിംഗ് ചേർക്കുക 👀 ( SRE ബുക്ക്: മോണിറ്ററിംഗ് ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റംസ് , വെർട്ടെക്സ് AI മോഡൽ മോണിറ്ററിംഗ് )
-
കാനറി അല്ലെങ്കിൽ നീല-പച്ച ഉപയോഗിച്ച് സുരക്ഷിതമായി വിരിക്കുക, എളുപ്പത്തിൽ റോൾബാക്ക് നിലനിർത്തുക 🚦 ( കാനറി റിലീസ് , നീല-പച്ച വിന്യാസം )
-
ആദ്യ ദിവസം മുതൽ സുരക്ഷയിലും സ്വകാര്യതയിലും മുഴുകൂ 🔐 ( AWS സീക്രട്ട്സ് മാനേജർ , NIST SP 800-122 )
-
വിരസവും, പ്രവചനാതീതവും, രേഖപ്പെടുത്തപ്പെട്ടതുമാക്കി നിലനിർത്തുക - വിരസത മനോഹരമാണ് 😌
അതെ, AI മോഡലുകൾ എങ്ങനെ വിന്യസിക്കാം എന്നത് ആദ്യം ജ്വലിക്കുന്ന ബൗളിംഗ് പന്തുകൾ കളിക്കുന്നത് പോലെ തോന്നും. എന്നാൽ നിങ്ങളുടെ പൈപ്പ്ലൈൻ സ്ഥിരത കൈവരിക്കുമ്പോൾ, അത് വിചിത്രമായി സംതൃപ്തി നൽകുന്നു. ഒടുവിൽ ഒരു അലങ്കോലപ്പെട്ട ഡ്രോയർ സംഘടിപ്പിക്കുന്നതുപോലെ... ഡ്രോയർ മാത്രമാണ് പ്രൊഡക്ഷൻ ട്രാഫിക്. 🔥🎳
പതിവുചോദ്യങ്ങൾ
ഉൽപ്പാദനത്തിൽ ഒരു AI മോഡൽ വിന്യസിക്കുക എന്നതിന്റെ അർത്ഥമെന്താണ്?
ഒരു AI മോഡൽ വിന്യസിക്കുന്നതിൽ സാധാരണയായി ഒരു പ്രവചന API വെളിപ്പെടുത്തുന്നതിനേക്കാൾ വളരെ കൂടുതലാണ് ഉൾപ്പെടുന്നത്. പ്രായോഗികമായി, മോഡലും അതിന്റെ ആശ്രിതത്വങ്ങളും പാക്കേജ് ചെയ്യുക, ഒരു സെർവിംഗ് പാറ്റേൺ (റിയൽ-ടൈം, ബാച്ച്, സ്ട്രീമിംഗ് അല്ലെങ്കിൽ എഡ്ജ്) തിരഞ്ഞെടുക്കുക, വിശ്വാസ്യതയോടെ സ്കെയിലിംഗ് ചെയ്യുക, ആരോഗ്യവും ഡ്രിഫ്റ്റും നിരീക്ഷിക്കുക, സുരക്ഷിതമായ റോൾഔട്ട്, റോൾബാക്ക് പാതകൾ സജ്ജീകരിക്കുക എന്നിവ ഇതിൽ ഉൾപ്പെടുന്നു. ഒരു സോളിഡ് വിന്യാസം ലോഡിന് കീഴിൽ പ്രവചനാതീതമായി സ്ഥിരത പുലർത്തുകയും എന്തെങ്കിലും തെറ്റ് സംഭവിക്കുമ്പോൾ രോഗനിർണയം നടത്താൻ കഴിയുകയും ചെയ്യും.
തത്സമയം, ബാച്ച്, സ്ട്രീമിംഗ് അല്ലെങ്കിൽ എഡ്ജ് വിന്യാസം എന്നിവയിൽ നിന്ന് എങ്ങനെ തിരഞ്ഞെടുക്കാം
പ്രവചനങ്ങൾ ആവശ്യമുള്ള സമയത്തെയും നിങ്ങൾ പ്രവർത്തിക്കുന്ന നിയന്ത്രണങ്ങളെയും അടിസ്ഥാനമാക്കി വിന്യാസ പാറ്റേൺ തിരഞ്ഞെടുക്കുക. ലേറ്റൻസി പ്രാധാന്യമുള്ള സംവേദനാത്മക അനുഭവങ്ങൾക്ക് തത്സമയ API-കൾ അനുയോജ്യമാണ്. കാലതാമസം സ്വീകാര്യമാകുമ്പോഴും ചെലവ് കാര്യക്ഷമത നയിക്കുമ്പോഴും ബാച്ച് സ്കോറിംഗ് മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു. ഡെലിവറി സെമാന്റിക്സ് ബുദ്ധിമുട്ടാകുമ്പോൾ, പ്രത്യേകിച്ച് തുടർച്ചയായ ഇവന്റ് പ്രോസസ്സിംഗിന് സ്ട്രീമിംഗ് അനുയോജ്യമാണ്. ഓഫ്ലൈൻ പ്രവർത്തനം, സ്വകാര്യത അല്ലെങ്കിൽ അൾട്രാ-ലോ-ലേറ്റൻസി ആവശ്യകതകൾക്ക് എഡ്ജ് വിന്യാസം അനുയോജ്യമാണ്, എന്നിരുന്നാലും അപ്ഡേറ്റുകളും ഹാർഡ്വെയർ വ്യതിയാനവും കൈകാര്യം ചെയ്യാൻ പ്രയാസമാണ്.
"എന്റെ ലാപ്ടോപ്പിൽ പ്രവർത്തിക്കുന്നു" എന്ന വിന്യാസ പരാജയങ്ങൾ ഒഴിവാക്കാൻ ഏത് പതിപ്പ് ഉപയോഗിക്കണം?
മോഡൽ വെയ്റ്റുകളെക്കാൾ പതിപ്പ് കൂടുതലാണ്. സാധാരണയായി, നിങ്ങൾക്ക് ഒരു പതിപ്പ് ചെയ്ത മോഡൽ ആർട്ടിഫാക്റ്റ് (ടോക്കണൈസറുകൾ അല്ലെങ്കിൽ ലേബൽ മാപ്പുകൾ ഉൾപ്പെടെ), പ്രീപ്രോസസ്സിംഗ്, ഫീച്ചർ ലോജിക്, ഇൻഫറൻസ് കോഡ്, പൂർണ്ണ റൺടൈം എൻവയോൺമെന്റ് (പൈത്തൺ/സിയുഡിഎ/സിസ്റ്റം ലൈബ്രറികൾ) എന്നിവ ആവശ്യമായി വരും. സ്കീമ പ്രതീക്ഷകൾ, മൂല്യനിർണ്ണയ കുറിപ്പുകൾ, അറിയപ്പെടുന്ന പരിമിതികൾ എന്നിവ വിവരിക്കുന്ന ടാഗ് ചെയ്ത പതിപ്പുകളും ലൈറ്റ്വെയ്റ്റ് മെറ്റാഡാറ്റയും ഉള്ള ഒരു റിലീസ് ആർട്ടിഫാക്റ്റായി മോഡലിനെ പരിഗണിക്കുക.
ഒരു ലളിതമായ FastAPI-ശൈലി സേവനം ഉപയോഗിച്ചോ അതോ ഒരു സമർപ്പിത മോഡൽ സെർവർ ഉപയോഗിച്ചോ വിന്യസിക്കണോ എന്ന്
റൂട്ടിംഗ്, ഓത്ത്, ഇന്റഗ്രേഷൻ എന്നിവയിൽ നിങ്ങൾക്ക് നിയന്ത്രണം നിലനിർത്താൻ കഴിയുന്നതിനാൽ, ഒരു ലളിതമായ ആപ്പ് സെർവർ (ഫാസ്റ്റ്എപിഐ-സ്റ്റൈൽ സമീപനം) ആദ്യകാല ഉൽപ്പന്നങ്ങൾക്കോ ലളിതമായ മോഡലുകൾക്കോ നന്നായി പ്രവർത്തിക്കുന്നു. ഒരു മോഡൽ സെർവറിന് (ടോർച്ച്സെർവ് അല്ലെങ്കിൽ എൻവിഡിയ ട്രൈറ്റൺ-സ്റ്റൈൽ) ശക്തമായ ബാച്ചിംഗ്, കൺകറൻസി, ജിപിയു കാര്യക്ഷമത എന്നിവ നൽകാൻ കഴിയും. പല ടീമുകളും ഒരു ഹൈബ്രിഡിൽ ഇറങ്ങുന്നു: അനുമാനത്തിനായുള്ള ഒരു മോഡൽ സെർവറും ഓത്ത്, അഭ്യർത്ഥന രൂപപ്പെടുത്തൽ, നിരക്ക് പരിധികൾ എന്നിവയ്ക്കുള്ള നേർത്ത API ലെയറും.
കൃത്യത ലംഘിക്കാതെ ലേറ്റൻസിയും ത്രൂപുട്ടും എങ്ങനെ മെച്ചപ്പെടുത്താം
ചെറിയ പരിശോധനകൾ തെറ്റിദ്ധരിപ്പിക്കുന്നതിനാൽ, യഥാർത്ഥ പേലോഡുകൾ ഉപയോഗിച്ച് പ്രൊഡക്ഷൻ പോലുള്ള ഹാർഡ്വെയറിൽ p95/p99 ലേറ്റൻസി അളക്കുന്നതിലൂടെ ആരംഭിക്കുക. ബാച്ചിംഗ് (മികച്ച ത്രൂപുട്ട്, സാധ്യതയനുസരിച്ച് മോശമായ ലേറ്റൻസി), ക്വാണ്ടൈസേഷൻ (ചെറുതും വേഗതയേറിയതും, ചിലപ്പോൾ മിതമായ കൃത്യതയുള്ള ട്രേഡ്-ഓഫുകളോടെ), കംപൈലേഷൻ, ഒപ്റ്റിമൈസേഷൻ ഫ്ലോകൾ (ONNX/TensorRT-പോലുള്ളത്), ആവർത്തിച്ചുള്ള ഇൻപുട്ടുകൾ അല്ലെങ്കിൽ എംബെഡിംഗുകൾ കാഷിംഗ് എന്നിവ സാധാരണ ലിവറുകളിൽ ഉൾപ്പെടുന്നു. ക്യൂ ഡെപ്ത് അടിസ്ഥാനമാക്കിയുള്ള ഓട്ടോസ്കെയിലിംഗ് ടെയിൽ ലേറ്റൻസി മുകളിലേക്ക് ഇഴയുന്നത് തടയാനും കഴിയും.
"എൻഡ്പോയിന്റ് മുകളിലാണ്" എന്നതിനപ്പുറം എന്ത് നിരീക്ഷണമാണ് വേണ്ടത്?
പ്രവർത്തനസമയം മാത്രം പോരാ, കാരണം പ്രവചന നിലവാരം കുറയുമ്പോൾ ഒരു സേവനം ആരോഗ്യകരമായി കാണപ്പെടും. കുറഞ്ഞത്, അഭ്യർത്ഥന വോളിയം, പിശക് നിരക്ക്, ലേറ്റൻസി വിതരണങ്ങൾ എന്നിവ നിരീക്ഷിക്കുക, കൂടാതെ CPU/GPU/മെമ്മറി, ക്യൂ സമയം പോലുള്ള സാച്ചുറേഷൻ സിഗ്നലുകളും. മോഡൽ പെരുമാറ്റത്തിന്, അടിസ്ഥാന അനോമലി സിഗ്നലുകൾക്കൊപ്പം ഇൻപുട്ട്, ഔട്ട്പുട്ട് വിതരണങ്ങളും ട്രാക്ക് ചെയ്യുക. ശബ്ദായമാനമായ അലേർട്ടുകൾക്ക് പകരം പ്രവർത്തനം ട്രിഗർ ചെയ്യുന്ന ഡ്രിഫ്റ്റ് പരിശോധനകളും ലോഗ് അഭ്യർത്ഥന ഐഡികളും മോഡൽ പതിപ്പുകളും സ്കീമ വാലിഡേഷൻ ഫലങ്ങളും ചേർക്കുക.
പുതിയ മോഡൽ പതിപ്പുകൾ സുരക്ഷിതമായി പുറത്തിറക്കാനും വേഗത്തിൽ വീണ്ടെടുക്കാനും എങ്ങനെ
പ്രീപ്രോസസ്സിംഗും പോസ്റ്റ്പ്രോസസ്സിംഗും പരിശോധിക്കുന്ന, ഒരു "ഗോൾഡൻ സെറ്റ്" ഉപയോഗിച്ച് ഇന്റഗ്രേഷൻ പരിശോധനകൾ നടത്തുന്ന, ഒരു ലോഡ് ബേസ്ലൈൻ സ്ഥാപിക്കുന്ന ഒരു CI/CD പൈപ്പ്ലൈൻ ഉള്ള മോഡലുകളെ പൂർണ്ണ റിലീസുകളായി പരിഗണിക്കുക. റോൾഔട്ടുകൾക്ക്, കാനറി റാമ്പ് ട്രാഫിക് ക്രമേണ പുറത്തിറക്കുന്നു, അതേസമയം നീല-പച്ച തൽക്ഷണ ഫാൾബാക്കിനായി പഴയ പതിപ്പ് സജീവമായി നിലനിർത്തുന്നു. ഉപയോക്താക്കളെ ബാധിക്കാതെ യഥാർത്ഥ ട്രാഫിക്കിൽ ഒരു പുതിയ മോഡലിനെ വിലയിരുത്താൻ ഷാഡോ ടെസ്റ്റിംഗ് സഹായിക്കുന്നു. റോൾബാക്ക് ഒരു ഫസ്റ്റ് ക്ലാസ് മെക്കാനിസമായിരിക്കണം, ഒരു അനന്തരഫലമല്ല.
AI മോഡലുകൾ എങ്ങനെ വിന്യസിക്കാമെന്ന് പഠിക്കുമ്പോൾ ഏറ്റവും സാധാരണമായ പിഴവുകൾ
പരിശീലന-സേവന സ്കീ എന്നത് ഒരു ക്ലാസിക് ഉദാഹരണമാണ്: പ്രീപ്രോസസ്സിംഗ് പരിശീലനത്തിനും ഉൽപാദനത്തിനും ഇടയിൽ വ്യത്യാസപ്പെട്ടിരിക്കുന്നു, പ്രകടനം നിശബ്ദമായി കുറയുന്നു. മറ്റൊരു പതിവ് പ്രശ്നം സ്കീമ വാലിഡേഷൻ ഇല്ലാത്തതാണ്, അവിടെ ഒരു അപ്സ്ട്രീം മാറ്റം സൂക്ഷ്മമായ രീതിയിൽ ഇൻപുട്ടുകളെ തകർക്കുന്നു. ടീമുകൾ ടെയിൽ ലേറ്റൻസിയെ കുറച്ചുകാണുകയും ശരാശരികളിൽ അമിതമായി ശ്രദ്ധ കേന്ദ്രീകരിക്കുകയും ചെയ്യുന്നു, ചെലവ് അവഗണിക്കുന്നു (നിഷ്ക്രിയ GPU-കൾ വേഗത്തിൽ കൂട്ടിച്ചേർക്കുന്നു), റോൾബാക്ക് പ്ലാനിംഗ് ഒഴിവാക്കുന്നു. പ്രവർത്തന സമയം മാത്രം നിരീക്ഷിക്കുന്നത് പ്രത്യേകിച്ച് അപകടകരമാണ്, കാരണം "മുകളിലേക്കും തെറ്റായും" എന്നത് കുറയുന്നതിനേക്കാൾ മോശമായിരിക്കും.
അവലംബം
-
ആമസോൺ വെബ് സർവീസസ് (AWS) - ആമസോൺ സേജ് മേക്കർ: തത്സമയ അനുമാനം - docs.aws.amazon.com
-
ആമസോൺ വെബ് സർവീസസ് (AWS) - ആമസോൺ സേജ് മേക്കർ ബാച്ച് ട്രാൻസ്ഫോം - docs.aws.amazon.com
-
ആമസോൺ വെബ് സർവീസസ് (AWS) - ആമസോൺ സേജ് മേക്കർ മോഡൽ മോണിറ്റർ - docs.aws.amazon.com
-
ആമസോൺ വെബ് സർവീസസ് (AWS) - API ഗേറ്റ്വേ അഭ്യർത്ഥന ത്രോട്ടിലിംഗ് - docs.aws.amazon.com
-
ആമസോൺ വെബ് സർവീസസ് (AWS) - AWS സീക്രട്ട്സ് മാനേജർ: ആമുഖം - docs.aws.amazon.com
-
ആമസോൺ വെബ് സർവീസസ് (AWS) - AWS ലാംഡ എക്സിക്യൂഷൻ എൻവയോൺമെന്റ് ലൈഫ് സൈക്കിൾ - docs.aws.amazon.com
-
ഗൂഗിൾ ക്ലൗഡ് - വെർട്ടെക്സ് AI: ഒരു എൻഡ്പോയിന്റിലേക്ക് ഒരു മോഡൽ വിന്യസിക്കുക - docs.cloud.google.com
-
ഗൂഗിൾ ക്ലൗഡ് - വെർട്ടെക്സ് AI മോഡൽ മോണിറ്ററിംഗ് അവലോകനം - docs.cloud.google.com
-
ഗൂഗിൾ ക്ലൗഡ് - വെർട്ടെക്സ് AI: മോണിറ്റർ ഫീച്ചർ സ്ക്യൂ ആൻഡ് ഡ്രിഫ്റ്റ് - docs.cloud.google.com
-
ഗൂഗിൾ ക്ലൗഡ് ബ്ലോഗ് - ഡാറ്റഫ്ലോ: കൃത്യമായി ഒരിക്കൽ vs കുറഞ്ഞത് ഒരിക്കൽ സ്ട്രീമിംഗ് മോഡുകൾ - cloud.google.com
-
ഗൂഗിൾ ക്ലൗഡ് - ക്ലൗഡ് ഡാറ്റാഫ്ലോ സ്ട്രീമിംഗ് മോഡുകൾ - docs.cloud.google.com
-
ഗൂഗിൾ എസ്ആർഇ ബുക്ക് - മോണിറ്ററിംഗ് ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റങ്ങൾ - sre.google
-
ഗൂഗിൾ റിസർച്ച് - ദി ടെയിൽ അറ്റ് സ്കെയിൽ - research.google
-
LiteRT (Google AI) - LiteRT അവലോകനം - ai.google.dev
-
LiteRT (Google AI) - LiteRT ഓൺ-ഡിവൈസ് അനുമാനം - ai.google.dev
-
ഡോക്കർ - ഒരു കണ്ടെയ്നർ എന്താണ്? - docs.docker.com
-
ഡോക്കർ - ഡോക്കർ മികച്ച രീതികൾ നിർമ്മിക്കുന്നു - docs.docker.com
-
കുബർനെറ്റസ് - കുബർനെറ്റസ് രഹസ്യങ്ങൾ - kubernetes.io
-
കുബേർനെറ്റസ് - ഹൊറിസോണ്ടൽ പോഡ് ഓട്ടോസ്കെയിലിംഗ് - kubernetes.io
-
മാർട്ടിൻ ഫൗളർ - കാനറി റിലീസ് - martinfowler.com
-
മാർട്ടിൻ ഫൗളർ - ബ്ലൂ-ഗ്രീൻ ഡിപ്ലോയ്മെന്റ് - martinfowler.com
-
OpenAPI ഇനിഷ്യേറ്റീവ് - എന്താണ് OpenAPI? - openapis.org
-
JSON സ്കീമ - (സൈറ്റ് റഫറൻസ് ചെയ്തത്) - json-schema.org
-
പ്രോട്ടോക്കോൾ ബഫറുകൾ - പ്രോട്ടോക്കോൾ ബഫറുകളുടെ അവലോകനം - protobuf.dev
-
FastAPI - (സൈറ്റ് റഫറൻസ് ചെയ്തത്) - fastapi.tiangolo.com
-
എൻവിഡിയ - ട്രൈറ്റൺ: ഡൈനാമിക് ബാച്ചിംഗ് & കൺകറന്റ് മോഡൽ എക്സിക്യൂഷൻ - docs.nvidia.com
-
എൻവിഡിയ - ട്രൈറ്റൺ: കൺകറന്റ് മോഡൽ എക്സിക്യൂഷൻ - docs.nvidia.com
-
എൻവിഡിയ - ട്രൈറ്റൺ ഇൻഫെരൻസ് സെർവർ ഡോക്സ് - docs.nvidia.com
-
പൈടോർച്ച് - ടോർച്ച്സെർവ് ഡോക്സ് - docs.pytorch.org
-
ബെന്റോഎംഎൽ - വിന്യാസത്തിനുള്ള പാക്കേജിംഗ് - docs.bentoml.com
-
റേ - റേ സെർവ് ഡോക്സ് - docs.ray.io
-
ടെൻസർഫ്ലോ - പരിശീലനത്തിനു ശേഷമുള്ള ക്വാണ്ടൈസേഷൻ (ടെൻസർഫ്ലോ മോഡൽ ഒപ്റ്റിമൈസേഷൻ) - tensorflow.org
-
ടെൻസർഫ്ലോ - ടെൻസർഫ്ലോ ഡാറ്റാ വാലിഡേഷൻ: പരിശീലനം നൽകുന്ന സ്കീ കണ്ടെത്തുക - tensorflow.org
-
ONNX - (സൈറ്റ് റഫറൻസ് ചെയ്തിരിക്കുന്നു) - onnx.ai
-
ONNX റൺടൈം - മോഡൽ ഒപ്റ്റിമൈസേഷനുകൾ - onnxruntime.ai
-
NIST (നാഷണൽ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് സ്റ്റാൻഡേർഡ്സ് ആൻഡ് ടെക്നോളജി) - NIST SP 800-122 - csrc.nist.gov
-
arXiv - മോഡൽ റിപ്പോർട്ടിംഗിനായുള്ള മോഡൽ കാർഡുകൾ - arxiv.org
-
മൈക്രോസോഫ്റ്റ് - ഷാഡോ ടെസ്റ്റിംഗ് - microsoft.github.io
-
OWASP - LLM ആപ്ലിക്കേഷനുകളിൽ OWASP ടോപ്പ് 10 - owasp.org
-
OWASP GenAI സുരക്ഷാ പദ്ധതി - OWASP: പ്രോംപ്റ്റ് ഇൻജക്ഷൻ - genai.owasp.org