നിങ്ങളുടെ സ്വന്തം ഹാർഡ്വെയറിൽ പ്രവർത്തിക്കുന്ന, നിങ്ങളുടെ സ്വന്തം ഹാർഡ്വെയറിൽ പ്രവർത്തിക്കുന്ന, നിങ്ങളെ തെറ്റായി കേട്ടതിനാൽ അബദ്ധത്തിൽ പന്ത്രണ്ട് പൈനാപ്പിൾ ഓർഡർ ചെയ്യാത്ത ഒരു ചെറിയ വോയ്സ് അസിസ്റ്റന്റ് വേണോ? റാസ്ബെറി പൈ ഉള്ള ഒരു DIY AI അസിസ്റ്റന്റ് അത്ഭുതകരമാംവിധം നേടാവുന്നതും രസകരവും വഴക്കമുള്ളതുമാണ്. നിങ്ങൾ ഒരു വേക്ക് വേഡ്, സ്പീച്ച് റെക്കഗ്നിഷൻ (ASR = ഓട്ടോമാറ്റിക് സ്പീച്ച് റെക്കഗ്നിഷൻ), സ്വാഭാവിക ഭാഷയ്ക്കുള്ള ഒരു ബ്രെയിൻ (റൂളുകൾ അല്ലെങ്കിൽ ഒരു LLM), ടെക്സ്റ്റ്-ടു-സ്പീച്ച് (TTS) എന്നിവ വയർ ചെയ്യും. കുറച്ച് സ്ക്രിപ്റ്റുകൾ, ഒന്നോ രണ്ടോ സേവനങ്ങൾ, ചില ശ്രദ്ധാപൂർവ്വമായ ഓഡിയോ മാറ്റങ്ങൾ എന്നിവ ചേർക്കുക, നിങ്ങളുടെ നിയമങ്ങൾ അനുസരിക്കുന്ന ഒരു പോക്കറ്റബിൾ സ്മാർട്ട് സ്പീക്കർ നിങ്ങൾക്ക് ലഭിക്കും.
സാധാരണ മുടി വലിക്കലില്ലാതെ പൂജ്യത്തിൽ നിന്ന് ടോക്കിംഗ്-ടു-യുവർ-പൈയിലേക്ക് നിങ്ങളെ എത്തിക്കാം. ഭാഗങ്ങൾ, സജ്ജീകരണം, കോഡ്, താരതമ്യങ്ങൾ, കാര്യങ്ങൾ... മുഴുവൻ ബുറിറ്റോയും ഞങ്ങൾ ഉൾപ്പെടുത്തും. 🌯
ഇതിനു ശേഷം നിങ്ങൾക്ക് വായിക്കാൻ ഇഷ്ടപ്പെട്ടേക്കാവുന്ന ലേഖനങ്ങൾ:
🔗 AI എങ്ങനെ ഫലപ്രദമായി പഠിക്കാം
ഒരു പഠന റോഡ്മാപ്പ് സൃഷ്ടിക്കുക, പ്രോജക്ടുകൾ പരിശീലിക്കുക, പുരോഗതി ട്രാക്ക് ചെയ്യുക.
🔗 ഒരു AI കമ്പനി എങ്ങനെ ആരംഭിക്കാം
പ്രശ്നം പരിഹരിക്കുക, എംവിപി നിർമ്മിക്കുക, ടീമിനെ കൂട്ടിച്ചേർക്കുക, ആദ്യ ഉപഭോക്താക്കളെ ഉറപ്പാക്കുക.
🔗 കൂടുതൽ ഉൽപ്പാദനക്ഷമത കൈവരിക്കാൻ AI എങ്ങനെ ഉപയോഗിക്കാം
പതിവ് ജോലികൾ ഓട്ടോമേറ്റ് ചെയ്യുക, വർക്ക്ഫ്ലോകൾ കാര്യക്ഷമമാക്കുക, സൃഷ്ടിപരമായ ഔട്ട്പുട്ട് വർദ്ധിപ്പിക്കുക.
🔗 നിങ്ങളുടെ ബിസിനസ്സിൽ AI എങ്ങനെ ഉൾപ്പെടുത്താം
ഉയർന്ന ആഘാത പ്രക്രിയകൾ തിരിച്ചറിയുക, പൈലറ്റുകൾ നടപ്പിലാക്കുക, ROI അളക്കുക, സ്കെയിൽ ചെയ്യുക.
റാസ്പ്ബെറി പൈ ഉപയോഗിച്ച് ഒരു നല്ല DIY AI അസിസ്റ്റന്റ് ഉണ്ടാക്കുന്നത് എന്താണ് ✅
-
ഡിഫോൾട്ടായി സ്വകാര്യം - സാധ്യമാകുന്നിടത്തെല്ലാം ഓഡിയോ ലോക്കൽ ആയി സൂക്ഷിക്കുക. ഉപകരണത്തിൽ നിന്ന് എന്ത് ഒഴിവാക്കണമെന്ന് നിങ്ങൾ തീരുമാനിക്കുക.
-
മോഡുലാർ - ലെഗോ പോലുള്ള സ്വാപ്പ് ഘടകങ്ങൾ: വേക്ക് വേഡ് എഞ്ചിൻ, ASR, LLM, TTS.
-
താങ്ങാനാവുന്ന വില - കൂടുതലും ഓപ്പൺ സോഴ്സ്, കമ്മോഡിറ്റി മൈക്കുകൾ, സ്പീക്കറുകൾ, ഒരു പൈ.
-
ഹാക്ക് ചെയ്യാവുന്നത് – ഹോം ഓട്ടോമേഷൻ, ഡാഷ്ബോർഡുകൾ, ദിനചര്യകൾ, ഇഷ്ടാനുസൃത കഴിവുകൾ എന്നിവ ആവശ്യമുണ്ടോ? എളുപ്പമാണ്.
-
വിശ്വസനീയം – സർവീസ് മാനേജ്ഡ്, ബൂട്ട് ചെയ്ത് സ്വയമേവ കേൾക്കാൻ തുടങ്ങുന്നു.
-
രസകരം - ഓഡിയോ, പ്രോസസ്സുകൾ, ഇവന്റ് അധിഷ്ഠിത ഡിസൈൻ എന്നിവയെക്കുറിച്ച് നിങ്ങൾക്ക് ധാരാളം കാര്യങ്ങൾ പഠിക്കാൻ കഴിയും.
ചെറിയ നുറുങ്ങ്: നിങ്ങൾ ഒരു റാസ്പ്ബെറി പൈ 5 ഉപയോഗിക്കുകയും കൂടുതൽ ഭാരമുള്ള പ്രാദേശിക മോഡലുകൾ പ്രവർത്തിപ്പിക്കാൻ പദ്ധതിയിടുകയും ചെയ്യുന്നുവെങ്കിൽ, ഒരു ക്ലിപ്പ്-ഓൺ കൂളർ സ്ഥിരമായ ലോഡിൽ സഹായിക്കുന്നു. (സംശയമുണ്ടെങ്കിൽ, പൈ 5-നായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്ന ഔദ്യോഗിക ആക്റ്റീവ് കൂളർ തിരഞ്ഞെടുക്കുക.) [1]
നിങ്ങൾക്ക് ആവശ്യമായ ഭാഗങ്ങളും ഉപകരണങ്ങളും 🧰
-
റാസ്ബെറി പൈ : ഹെഡ്റൂമിന് പൈ 4 അല്ലെങ്കിൽ പൈ 5 ശുപാർശ ചെയ്യുന്നു.
-
മൈക്രോ എസ്ഡി കാർഡ് : 32 ജിബി+ ശുപാർശ ചെയ്യുന്നു.
-
യുഎസ്ബി മൈക്രോഫോൺ : ഒരു ലളിതമായ യുഎസ്ബി കോൺഫറൻസ് മൈക്ക് മികച്ചതാണ്.
-
സ്പീക്കർ : USB അല്ലെങ്കിൽ 3.5 mm സ്പീക്കർ, അല്ലെങ്കിൽ ഒരു I2S amp HAT.
-
നെറ്റ്വർക്ക് : ഇതർനെറ്റ് അല്ലെങ്കിൽ വൈ-ഫൈ.
-
ഓപ്ഷണൽ നൈറ്റികൾ: കേസ്, ആക്റ്റീവ് കൂളർ , പുഷ്-ടു-ടോക്കിനുള്ള പുഷ് ബട്ടൺ, എൽഇഡി റിംഗ്. [1]
OS & ബേസ്ലൈൻ സജ്ജീകരണം
-
ഫ്ലാഷ് റാസ്പ്ബെറി പൈ ഒഎസ് . നിങ്ങൾക്ക് ആവശ്യമുള്ള പ്രീസെറ്റുകൾ ഉപയോഗിച്ച് ബൂട്ട് ചെയ്യാവുന്ന മൈക്രോ എസ്ഡി ലഭിക്കാനുള്ള എളുപ്പവഴിയാണിത്. [1]
-
ബൂട്ട് ചെയ്യുക, നെറ്റ്വർക്കിലേക്ക് കണക്റ്റുചെയ്യുക, തുടർന്ന് പാക്കേജുകൾ അപ്ഡേറ്റുചെയ്യുക:
സുഡോ ആപ്റ്റ് അപ്ഡേറ്റ് && സുഡോ ആപ്റ്റ് അപ്ഗ്രേഡ് -y
-
ഓഡിയോ അടിസ്ഥാനങ്ങൾ : റാസ്ബെറി പൈ ഒഎസിൽ നിങ്ങൾക്ക് ഡെസ്ക്ടോപ്പ് UI അല്ലെങ്കിൽ
raspi-config. യുഎസ്ബി, HDMI ഓഡിയോ മോഡലുകളിലുടനീളം പിന്തുണയ്ക്കുന്നു; ബ്ലൂടൂത്ത് ഉള്ള മോഡലുകളിൽ ബ്ലൂടൂത്ത് ഔട്ട്പുട്ട് ലഭ്യമാണ്. [1] -
ഉപകരണങ്ങൾ പരിശോധിക്കുക:
റെക്കോർഡ് -l aplay -l
പിന്നെ ക്യാപ്ചറും പ്ലേബാക്കും പരീക്ഷിക്കുക. ലെവലുകൾ വിചിത്രമായി തോന്നുകയാണെങ്കിൽ, മൈക്കിനെ കുറ്റപ്പെടുത്തുന്നതിന് മുമ്പ് മിക്സറുകളും ഡിഫോൾട്ടുകളും പരിശോധിക്കുക.

വാസ്തുവിദ്യയുടെ ഒറ്റനോട്ടത്തിൽ 🗺️
ഒരു വിവേകപൂർണ്ണമായ DIY AI അസിസ്റ്റന്റ് ഇതുപോലെ കാണപ്പെടുന്നു:
വേക്ക് വേഡ് → ലൈവ് ഓഡിയോ ക്യാപ്ചർ → ASR ട്രാൻസ്ക്രിപ്ഷൻ → ഇന്റന്റ് ഹാൻഡ്ലിംഗ് അല്ലെങ്കിൽ LLM → പ്രതികരണ വാചകം → TTS → ഓഡിയോ പ്ലേബാക്ക് → MQTT അല്ലെങ്കിൽ HTTP വഴി ഓപ്ഷണൽ പ്രവർത്തനങ്ങൾ.
-
വേക്ക് വേഡ് : പോർക്കുപൈൻ ചെറുതും കൃത്യവുമാണ്, കൂടാതെ ഓരോ കീവേഡ് സെൻസിറ്റിവിറ്റി നിയന്ത്രണത്തോടെ പ്രാദേശികമായി പ്രവർത്തിക്കുന്നു. [2]
-
ASR : വിസ്പർ ഏകദേശം 680k മണിക്കൂർ പരിശീലനം നേടിയ ഒരു ബഹുഭാഷാ, പൊതു ആവശ്യത്തിനുള്ള ASR മോഡലാണ്; ഇത് ആക്സന്റുകൾ/പശ്ചാത്തല ശബ്ദങ്ങളെ ശക്തമായി നേരിടുന്നു. ഉപകരണത്തിലെ ഉപയോഗത്തിനായി,
whisper.cppഒരു ലീൻ C/C++ അനുമാന പാത നൽകുന്നു. [3][4] -
തലച്ചോറ് : നിങ്ങളുടെ തിരഞ്ഞെടുപ്പ് - API വഴിയുള്ള ഒരു ക്ലൗഡ് LLM, ഒരു റൂൾസ് എഞ്ചിൻ, അല്ലെങ്കിൽ കുതിരശക്തിയെ ആശ്രയിച്ച് പ്രാദേശിക അനുമാനം.
-
ടിടിഎസ് : പൈപ്പർ സ്വാഭാവിക സംസാരം പ്രാദേശികമായി സൃഷ്ടിക്കുന്നു, മിതമായ ഹാർഡ്വെയറിൽ പോലും വേഗതയേറിയ പ്രതികരണങ്ങൾ നൽകാൻ ഇതിന് കഴിയും. [5]
ദ്രുത താരതമ്യ പട്ടിക 🔎
| ഉപകരണം | ഏറ്റവും മികച്ചത് | വില കൂടിയത് | എന്തുകൊണ്ട് ഇത് പ്രവർത്തിക്കുന്നു |
|---|---|---|---|
| പോർക്കുപൈൻ വേക്ക് വേഡ് | എപ്പോഴും ശ്രദ്ധിക്കുന്ന ട്രിഗർ | സൗജന്യ ടയർ + | കുറഞ്ഞ CPU, കൃത്യതയുള്ള, എളുപ്പമുള്ള ബൈൻഡിംഗ് [2] |
| വിസ്പർ.സിപിപി | പൈയിലെ ലോക്കൽ എ.എസ്.ആർ | ഓപ്പൺ സോഴ്സ് | നല്ല കൃത്യത, സിപിയു-സൗഹൃദം [4] |
| ഫാസ്റ്റർ-വിസ്പർ | CPU/GPU-വിൽ വേഗതയേറിയ ASR | ഓപ്പൺ സോഴ്സ് | CTranslate2 ഒപ്റ്റിമൈസേഷനുകൾ |
| പൈപ്പർ ടിടിഎസ് | ലോക്കൽ സ്പീച്ച് ഔട്ട്പുട്ട് | ഓപ്പൺ സോഴ്സ് | വേഗതയേറിയ ശബ്ദങ്ങൾ, നിരവധി ഭാഷകൾ [5] |
| ക്ലൗഡ് എൽഎൽഎം API | സമ്പന്നമായ യുക്തി | ഉപയോഗത്തെ അടിസ്ഥാനമാക്കിയുള്ളത് | കനത്ത കമ്പ്യൂട്ട് ഓഫ്ലോഡ് ചെയ്യുന്നു |
| നോഡ്-റെഡ് | പ്രവർത്തനങ്ങൾ ക്രമീകരിക്കുന്നു | ഓപ്പൺ സോഴ്സ് | ദൃശ്യ പ്രവാഹങ്ങൾ, MQTT സൗഹൃദം |
ഘട്ടം ഘട്ടമായുള്ള നിർമ്മാണം: നിങ്ങളുടെ ആദ്യ വോയ്സ് ലൂപ്പ് 🧩
വേക്ക് വേഡിനായി പോർക്കുപൈൻ, ട്രാൻസ്ക്രിപ്ഷനായി വിസ്പർ, മറുപടിക്കായി ഒരു ലൈറ്റ്വെയ്റ്റ് “ബ്രെയിൻ” ഫംഗ്ഷൻ (നിങ്ങൾക്ക് ഇഷ്ടമുള്ള LLM ഉപയോഗിച്ച് മാറ്റിസ്ഥാപിക്കുക), സംഭാഷണത്തിനായി പൈപ്പർ എന്നിവ ഞങ്ങൾ ഉപയോഗിക്കും. ഇത് ചെറുതാക്കി നിർത്തുക, തുടർന്ന് ആവർത്തിക്കുക.
1) ഡിപൻഡൻസികൾ ഇൻസ്റ്റാൾ ചെയ്യുക
sudo apt ഇൻസ്റ്റാൾ ചെയ്യുക -y python3-pip portaudio19-dev sox ffmpeg pip3 സൗണ്ട് ഡിവൈസ് നമ്പർ ഇൻസ്റ്റാൾ ചെയ്യുക
-
പോർക്കുപൈൻ: നിങ്ങളുടെ ഭാഷയ്ക്കായി SDK/ബൈൻഡിംഗുകൾ പിടിച്ചെടുത്ത് ദ്രുത ആരംഭം പിന്തുടരുക (ആക്സസ് കീ + കീവേഡ് ലിസ്റ്റ് + ഓഡിയോ ഫ്രെയിമുകൾ →
.പ്രോസസ്സ്). [2] -
വിസ്പർ (സിപിയു-സൗഹൃദം): whisper.cpp :
ജിറ്റ് ക്ലോൺ https://github.com/ggml-org/whisper.cpp cd whisper.cpp && cmake -B ബിൽഡ് && cmake --build build -j ./models/download-ggml-model.sh base.en ./build/bin/whisper-cli -m ./models/ggml-base.en.bin -f your.wav -otxt
മുകളിൽ പറഞ്ഞവ പദ്ധതിയുടെ ദ്രുത തുടക്കത്തെ പ്രതിഫലിപ്പിക്കുന്നു. [4]
പൈത്തണാണ് ഇഷ്ടം?
ഫാസ്റ്റർ-വിസ്പർ(CTranslate2) പലപ്പോഴും വാനില പൈത്തണിനേക്കാൾ വേഗതയുള്ളതാണ്.
2) പൈപ്പർ ടിടിഎസ് സജ്ജീകരിക്കുക
ജിറ്റ് ക്ലോൺ https://github.com/rhasspy/piper സിഡി പൈപ്പർ നിർമ്മിക്കുക # നിങ്ങൾക്ക് ഇഷ്ടപ്പെട്ട ഒരു വോയ്സ് മോഡൽ ഡൗൺലോഡ് ചെയ്യുക, ഉദാ, en_US-amy echo "Hello there." | ./piper --model voices/en/en_US-amy-medium.onnx --output_file hello.wav aplay hello.wav
ഒന്നിലധികം ശബ്ദ/ഭാഷാ ഓപ്ഷനുകളുള്ള ഉപകരണത്തിലെ ടിടിഎസിനായി പൈപ്പർ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു. [5]
3) പൈത്തണിലെ ഒരു മിനിമൽ അസിസ്റ്റന്റ് ലൂപ്പ്
മനഃപൂർവ്വം ഒതുക്കമുള്ളത്: ഒരു വേക്ക് വാക്യത്തിനായി കാത്തിരിക്കുന്നു (സ്റ്റബ്), റെക്കോർഡുചെയ്യുന്നു, whisper.cpp , ഒരു മറുപടി സൃഷ്ടിക്കുന്നു (പ്ലേസ്ഹോൾഡർ), തുടർന്ന് പൈപ്പർ വഴി സംസാരിക്കുന്നു. നിങ്ങളുടെ പ്രിയപ്പെട്ട LLM അല്ലെങ്കിൽ റൂൾ ലോജിക് ഉപയോഗിച്ച് പ്ലെയ്സ്ഹോൾഡർ മാറ്റുന്നു.
OS, സബ്പ്രോസസ്, വേവ് ഇറക്കുമതി ചെയ്യുക sd ആയി സൗണ്ട് ഡിവൈസ് WAKE_WORD = "ഹേ കമ്പ്യൂട്ടർ" # പ്രൊഡക്ഷനിൽ പോർക്കുപൈനിനുള്ള സ്വാപ്പ് [2] RECORD_SECONDS = 6 SAMPLE_RATE = 16000 ചാനലുകൾ = 1 WORKDIR = "/home/pi/assistant" ASR_BIN = "/home/pi/whisper.cpp/build/bin/whisper-cli" # [4] ASR_MODEL = "/home/pi/whisper.cpp/models/ggml-base.en.bin" PIPER_BIN = "/home/pi/piper/build/piper" # [5] PIPER_VOICE = "/home/pi/piper/voices/en/en_US-amy-medium.onnx" os.makedirs(WORKDIR, exist_ok=True) def record_wav(path, സെക്കൻഡ് = RECORD_SECONDS): ഓഡിയോ = sd.rec(int(സെക്കൻഡ് * SAMPLE_RATE), സാമ്പിൾറേറ്റ് = SAMPLE_RATE, ചാനലുകൾ = CHANNELS, dtype='int16') sd.wait() wave.open(path, 'wb') ഉപയോഗിച്ച് w: w.setnchannels(CHANNELS); w.setsampwidth(2); w.setframerate(SAMPLE_RATE) w.writeframes(audio.tobytes()) def transcribe(path): cmd = [ASR_BIN, "-m", ASR_MODEL, "-f", path, "-otxt"] subprocess.run(cmd, check=True, cwd=WORKDIR) with open(path.replace(".wav", ".txt"), "r", encoding="utf-8") as f: return f.read().strip() def generate_reply(prompt): if "weather" in prompt.lower(): return "എനിക്ക് മേഘങ്ങൾ കാണാൻ കഴിയുന്നില്ല, പക്ഷേ അത് നല്ലതായിരിക്കാം. ഒരു ജാക്കറ്റ് കൊണ്ടുവരിക." "നിങ്ങൾ പറഞ്ഞത്:" + prompt def speak(text): proc = subprocess.Popen([PIPER_BIN, "--model", PIPER_VOICE, "--output_file", f"{WORKDIR}/reply.wav"], stdin=subprocess.PIPE) proc.stdin.write(text.encode("utf-8")); proc.stdin.close(); proc.wait() subprocess.run(["aplay", f"{WORKDIR}/reply.wav"], check=True) print("അസിസ്റ്റന്റ് തയ്യാറാണ്. പരീക്ഷിക്കാൻ വേക്ക് വാക്യം ടൈപ്പ് ചെയ്യുക.") True: typed = input("> ").strip().lower() ടൈപ്പ് ചെയ്താൽ == WAKE_WORD: wav_path = f"{WORKDIR}/input.wav" record_wav(wav_path) text = transcribe(wav_path) reply = generate_reply(text) print("User:", text); print("Assistant:", reply) speak(reply) else: print("ലൂപ്പ് പരിശോധിക്കാൻ വേക്ക് വാക്യം ടൈപ്പ് ചെയ്യുക.")
യഥാർത്ഥ വേക്ക്-വേഡ് ഡിറ്റക്ഷനായി, പോർക്കുപൈനിന്റെ സ്ട്രീമിംഗ് ഡിറ്റക്ടർ (കുറഞ്ഞ CPU, ഓരോ കീവേഡ് സെൻസിറ്റിവിറ്റി) സംയോജിപ്പിക്കുക. [2]
ശരിക്കും പ്രാധാന്യമുള്ള ഓഡിയോ ട്യൂണിംഗ് 🎚️
നിങ്ങളുടെ അസിസ്റ്റന്റിനെ 10× കൂടുതൽ മികച്ചതായി തോന്നിപ്പിക്കാൻ ചില ചെറിയ പരിഹാരങ്ങൾ സഹായിക്കുന്നു:
-
മൈക്ക് ദൂരം : 30–60 സെന്റീമീറ്റർ എന്നത് പല യുഎസ്ബി മൈക്കുകൾക്കും ഒരു പ്രത്യേക ഇഷ്ടമാണ്.
-
ലെവലുകൾ : ഇൻപുട്ടിൽ ക്ലിപ്പിംഗ് ഒഴിവാക്കുക, പ്ലേബാക്ക് വിവേകത്തോടെ സൂക്ഷിക്കുക; കോഡ് ഗോസ്റ്റുകളെ പിന്തുടരുന്നതിന് മുമ്പ് റൂട്ടിംഗ് ശരിയാക്കുക. റാസ്പ്ബെറി പൈ ഒഎസിൽ, സിസ്റ്റം ടൂളുകൾ അല്ലെങ്കിൽ
റാസ്പി-കോൺഫിഗ്. [1] -
മുറിയുടെ ശബ്ദശാസ്ത്രം : കട്ടിയുള്ള ഭിത്തികൾ പ്രതിധ്വനികൾ സൃഷ്ടിക്കുന്നു; മൈക്കിനടിയിൽ മൃദുവായ പായ സഹായിക്കും.
-
വേക്ക് വേഡ് ത്രെഷോൾഡ് : വളരെ സെൻസിറ്റീവ് → ഗോസ്റ്റ് ട്രിഗറുകൾ; വളരെ കർശനമായത് → നിങ്ങൾ പ്ലാസ്റ്റിക്കിനോട് ആക്രോശിക്കും. ഓരോ കീവേഡിനും സെൻസിറ്റിവിറ്റി ക്രമീകരിക്കാൻ പോർക്കുപൈൻ നിങ്ങളെ അനുവദിക്കുന്നു. [2]
-
തെർമലുകൾ : പൈ 5-ലെ നീണ്ട ട്രാൻസ്ക്രിപ്ഷനുകൾ, സുസ്ഥിരമായ പ്രകടനത്തിനായി ഔദ്യോഗിക സജീവ കൂളറിൽ നിന്ന് പ്രയോജനം നേടുന്നു. [1]
കളിപ്പാട്ടത്തിൽ നിന്ന് ഉപകരണത്തിലേക്ക്: സേവനങ്ങൾ, ഓട്ടോസ്റ്റാർട്ട്, ആരോഗ്യ പരിശോധനകൾ 🧯
മനുഷ്യർ സ്ക്രിപ്റ്റുകൾ പ്രവർത്തിപ്പിക്കാൻ മറക്കുന്നു. കമ്പ്യൂട്ടറുകൾ നന്നായിരിക്കാൻ മറക്കുന്നു. നിങ്ങളുടെ ലൂപ്പിനെ ഒരു നിയന്ത്രിത സേവനമാക്കി മാറ്റുക:
-
ഒരു systemd യൂണിറ്റ് സൃഷ്ടിക്കുക:
[യൂണിറ്റ്] വിവരണം=DIY വോയ്സ് അസിസ്റ്റന്റ് After=network.target sound.target [സേവനം] ഉപയോക്താവ്=pi വർക്കിംഗ് ഡയറക്ടറി=/ഹോം/പിഐ/അസിസ്റ്റന്റ് ExecStart=/usr/bin/python3 /home/pi/assistant/assistant.py Restart=always RestartSec=3 [ഇൻസ്റ്റാൾ ചെയ്യുക] WantedBy=multi-user.target
-
ഇത് പ്രാപ്തമാക്കുക:
sudo cp assistant.service /etc/systemd/system/ sudo systemctl ഡെമൺ-റീലോഡ് sudo systemctl --now assistant.service പ്രവർത്തനക്ഷമമാക്കുക
-
ലോഗ് ടെയിലുകൾ:
journalctl -u അസിസ്റ്റന്റ് -f
ഇപ്പോൾ അത് ബൂട്ട് ചെയ്യുമ്പോൾ ആരംഭിക്കുന്നു, ക്രാഷിൽ റീസ്റ്റാർട്ട് ചെയ്യുന്നു, സാധാരണയായി ഒരു ഉപകരണം പോലെ പ്രവർത്തിക്കുന്നു. അൽപ്പം വിരസമാണ്, വളരെ മികച്ചതാണ്.
നൈപുണ്യ സംവിധാനം: വീട്ടിൽ തന്നെ ഉപയോഗപ്രദമാക്കൂ 🏠✨
വോയ്സ്-ഇന്നും വോയ്സ്-ഔട്ടും സുദൃഢമായിക്കഴിഞ്ഞാൽ, പ്രവർത്തനങ്ങൾ ചേർക്കുക:
-
ഇന്റന്റ് റൂട്ടർ : സാധാരണ ജോലികൾക്കുള്ള ലളിതമായ കീവേഡ് റൂട്ടുകൾ.
-
സ്മാർട്ട് ഹോം : MQTT-യിലേക്ക് ഇവന്റുകൾ പ്രസിദ്ധീകരിക്കുക അല്ലെങ്കിൽ ഹോം അസിസ്റ്റന്റിന്റെ HTTP എൻഡ്പോയിന്റുകളിലേക്ക് വിളിക്കുക.
-
പ്ലഗിനുകൾ
set_timer,what_is_the_time,play_radio,run_sceneപോലുള്ള ദ്രുത പൈത്തൺ ഫംഗ്ഷനുകൾ .
ലൂപ്പിൽ ഒരു ക്ലൗഡ് LLM ഉണ്ടെങ്കിൽ പോലും, വേഗതയ്ക്കും വിശ്വാസ്യതയ്ക്കും വേണ്ടി വ്യക്തമായ ലോക്കൽ കമാൻഡുകൾ ആദ്യം റൂട്ട് ചെയ്യുക.
ലോക്കൽ ഒൺലി vs ക്ലൗഡ് അസിസ്റ്റ്: നിങ്ങൾക്ക് അനുഭവപ്പെടുന്ന വിട്ടുവീഴ്ചകൾ 🌓
പ്രാദേശികമായി മാത്രം.
ഗുണങ്ങൾ: സ്വകാര്യം, ഓഫ്ലൈൻ, പ്രവചിക്കാവുന്ന ചെലവുകൾ.
ദോഷങ്ങൾ: ചെറിയ ബോർഡുകളിൽ ഭാരമേറിയ മോഡലുകൾ മന്ദഗതിയിലായേക്കാം. വിസ്പറിന്റെ ബഹുഭാഷാ പരിശീലനം ഉപകരണത്തിലോ അടുത്തുള്ള സെർവറിലോ സൂക്ഷിക്കുകയാണെങ്കിൽ അതിന്റെ കരുത്ത് വർദ്ധിപ്പിക്കാൻ സഹായിക്കുന്നു. [3]
ക്ലൗഡ് അസിസ്റ്റ്
ഗുണങ്ങൾ: ശക്തമായ യുക്തി, വലിയ സന്ദർഭ വിൻഡോകൾ.
ദോഷങ്ങൾ: ഉപകരണത്തിൽ നിന്ന് ഡാറ്റ പുറപ്പെടുന്നു, നെറ്റ്വർക്ക് ആശ്രിതത്വം, വേരിയബിൾ ചെലവുകൾ.
ഒരു ഹൈബ്രിഡ് പലപ്പോഴും വിജയിക്കും: വേക്ക് വേഡ് + എഎസ്ആർ ലോക്കൽ → യുക്തിക്ക് ഒരു എപിഐ വിളിക്കുക → ടിടിഎസ് ലോക്കൽ. [2][3][5]
ട്രബിൾഷൂട്ടിംഗ്: വിചിത്രമായ ഗ്രെംലിനുകളും ദ്രുത പരിഹാരങ്ങളും 👾
-
വേക്ക് വേഡ് ഫാൾസ് ട്രിഗറുകൾ : സെൻസിറ്റിവിറ്റികൾ കുറയ്ക്കുക അല്ലെങ്കിൽ മറ്റൊരു മൈക്ക് പരീക്ഷിക്കുക. [2]
-
ASR ലാഗ് : ഒരു ചെറിയ വിസ്പർ മോഡൽ ഉപയോഗിക്കുക അല്ലെങ്കിൽ റിലീസ് ഫ്ലാഗുകൾ ഉപയോഗിച്ച്
whisper.cpp-j --config റിലീസ്). [4] -
ചോപ്പി ടിടിഎസ് : സാധാരണ ശൈലികൾ മുൻകൂട്ടി സൃഷ്ടിക്കുക; നിങ്ങളുടെ ഓഡിയോ ഉപകരണവും സാമ്പിൾ നിരക്കുകളും സ്ഥിരീകരിക്കുക.
-
മൈക്ക് ഒന്നും കണ്ടെത്തിയില്ല
റെക്കോർഡ് -lഉം മിക്സറുകളും പരിശോധിക്കുക -
തെർമൽ ത്രോട്ടിലിംഗ് : സുസ്ഥിരമായ പ്രകടനത്തിനായി പൈ 5-ൽ ഔദ്യോഗിക ആക്റ്റീവ് കൂളർ ഉപയോഗിക്കുക. [1]
നിങ്ങൾ തീർച്ചയായും വായിക്കേണ്ട സുരക്ഷാ, സ്വകാര്യതാ കുറിപ്പുകൾ 🔒
-
APT ഉപയോഗിച്ച് നിങ്ങളുടെ പൈ അപ്ഡേറ്റ് ചെയ്യുക.
-
നിങ്ങൾ ഏതെങ്കിലും ക്ലൗഡ് API ഉപയോഗിക്കുകയാണെങ്കിൽ, നിങ്ങൾ അയയ്ക്കുന്നത് ലോഗ് ചെയ്ത്, ആദ്യം പ്രാദേശികമായി വ്യക്തിഗത ബിറ്റുകൾ എഡിറ്റ് ചെയ്യുന്നത് പരിഗണിക്കുക.
-
ഏറ്റവും കുറഞ്ഞ പ്രിവിലേജിൽ സേവനങ്ങൾ പ്രവർത്തിപ്പിക്കുക; ആവശ്യമില്ലെങ്കിൽ ExecStart-ൽ
sudo -
അതിഥികൾക്കോ ശാന്തമായ സമയങ്ങൾക്കോ വേണ്ടി ഒരു പ്രാദേശിക-മാത്രം മോഡ്
ബിൽഡ് വകഭേദങ്ങൾ: ഒരു സാൻഡ്വിച്ച് പോലെ മിക്സ് ആൻഡ് മാച്ച് 🥪
-
അൾട്രാ-ലോക്കൽ : പോർക്കുപൈൻ + വിസ്പർ.സിപിപി + പൈപ്പർ + ലളിതമായ നിയമങ്ങൾ. സ്വകാര്യവും കരുത്തുറ്റതും. [2][4][5]
-
സ്പീഡി ക്ലൗഡ് അസിസ്റ്റ് : പോർക്കുപൈൻ + (ചെറിയ ലോക്കൽ വിസ്പർ അല്ലെങ്കിൽ ക്ലൗഡ് എഎസ്ആർ) + ടിടിഎസ് ലോക്കൽ + ക്ലൗഡ് എൽഎൽഎം.
-
ഹോം ഓട്ടോമേഷൻ സെൻട്രൽ : ദിനചര്യകൾ, സീനുകൾ, സെൻസറുകൾ എന്നിവയ്ക്കായി നോഡ്-റെഡ് അല്ലെങ്കിൽ ഹോം അസിസ്റ്റന്റ് ഫ്ലോകൾ ചേർക്കുക.
ഉദാഹരണ കഴിവ്: MQTT വഴി പ്രകാശിക്കുന്നു 💡
paho.mqtt.client നെ mqtt ആയി ഇമ്പോർട്ടുചെയ്യുക MQTT_HOST = "192.168.1.10" TOPIC = "home/livingroom/light/set" def set_light(state: str): client = mqtt.Client() client.connect(MQTT_HOST, 1883, 60) payload = "ON" if state.lower().startswith("on") else "OFF" client.publish(TOPIC, payload, qos=1, retain=False) client.disconnect() # "turn on the lights" in text: set_light("on")
"ലിവിംഗ് റൂം ലാമ്പ് ഓൺ ആക്കുക" എന്നൊരു വോയ്സ് ലൈൻ ചേർത്താൽ നിങ്ങൾക്ക് ഒരു മാന്ത്രികനെ പോലെ തോന്നും.
ഈ സ്റ്റാക്ക് പ്രായോഗികമായി പ്രവർത്തിക്കുന്നത് എന്തുകൊണ്ട് 🧪
-
ചെറിയ ബോർഡുകളിൽ വേക്ക്-വേഡ് കണ്ടെത്തുന്നതിൽ പോർക്കുപൈൻ കാര്യക്ഷമവും കൃത്യവുമാണ്, ഇത് എപ്പോഴും കേൾക്കുന്നത് സാധ്യമാക്കുന്നു. [2]
-
വിസ്പറിന്റെ ബൃഹത്തായ, ബഹുഭാഷാ പരിശീലനം വൈവിധ്യമാർന്ന പരിതസ്ഥിതികളോടും ഉച്ചാരണങ്ങളോടും പൊരുത്തപ്പെടാൻ അതിനെ പ്രാപ്തമാക്കുന്നു. [3]
-
പൈ പോലുള്ള സിപിയു മാത്രമുള്ള ഉപകരണങ്ങളിൽ ആ പവർ ഉപയോഗിക്കാൻ
whisper.cpp -
ക്ലൗഡ് ടിടിഎസിലേക്ക് ഓഡിയോ അയയ്ക്കാതെ തന്നെ പൈപ്പർ പ്രതികരണങ്ങൾ വേഗത്തിൽ നിലനിർത്തുന്നു. [5]
വളരെ നീണ്ടതാണ്, വായിച്ചില്ല
വേക്ക് വേഡിനായി പോർക്കുപൈൻ, മറുപടികൾക്കായി നിങ്ങളുടെ ഇഷ്ട ബ്രെയിൻ ആയ ASR-ന് വിസ്പർ ( whisper.cpp റാസ്പ്ബെറി പൈ ഉപയോഗിച്ച് ഒരു മോഡുലാർ, സ്വകാര്യ DIY AI അസിസ്റ്റന്റ് നിർമ്മിക്കുക. MQTT അല്ലെങ്കിൽ HTTP പ്രവർത്തനങ്ങളിൽ ഇത് ഒരു സിസ്റ്റംഡ് സേവനമായി പൊതിയുക, ഓഡിയോ ട്യൂൺ ചെയ്യുക, വയർ ചെയ്യുക. നിങ്ങൾ വിചാരിക്കുന്നതിലും വിലകുറഞ്ഞതും ജീവിക്കാൻ വിചിത്രമായി സന്തോഷകരവുമാണ്. [1][2][3][4][5]
അവലംബം
-
റാസ്ബെറി പൈ സോഫ്റ്റ്വെയറും കൂളിംഗും - റാസ്ബെറി പൈ ഇമേജർ (ഡൗൺലോഡ് ചെയ്ത് ഉപയോഗിക്കുക) കൂടാതെ പൈ 5 ആക്റ്റീവ് കൂളർ ഉൽപ്പന്ന വിവരങ്ങൾ
-
റാസ്പ്ബെറി പൈ ഇമേജർ: കൂടുതൽ വായിക്കുക
-
ആക്ടീവ് കൂളർ (പൈ 5): കൂടുതൽ വായിക്കുക
-
-
പോർക്കുപൈൻ വേക്ക് വേഡ് - SDK & ദ്രുത ആരംഭം (കീവേഡുകൾ, സംവേദനക്ഷമത, പ്രാദേശിക അനുമാനം)
-
വിസ്പർ (ASR മോഡൽ) - ബഹുഭാഷാ, കരുത്തുറ്റ ASR ഏകദേശം 680,000 മണിക്കൂർ പരിശീലനം നേടി.
-
റാഡ്ഫോർഡ് തുടങ്ങിയവർ, (വിസ്പർ) വഴിയുള്ള റോബസ്റ്റ് സ്പീച്ച് റെക്കഗ്നിഷൻ കൂടുതൽ വായിക്കുക
-
-
whisper.cpp – CLI ഉപയോഗിച്ചുള്ള CPU-സൗഹൃദ വിസ്പർ അനുമാനവും ബിൽഡ് സ്റ്റെപ്പുകളും
-
പൈപ്പർ ടിടിഎസ് - ഒന്നിലധികം ശബ്ദങ്ങൾ/ഭാഷകളുള്ള വേഗതയേറിയ, പ്രാദേശിക ന്യൂറൽ ടിടിഎസ്.