Un sviluppatore ha creato un assistente vocale per la domotica completamente locale, denominato "Fulloch", utilizzando modelli Qwen3 per riconoscimento vocale automatico (ASR), modello linguistico di grandi dimensioni (LLM) e text-to-speech (TTS).

Dettagli dell'Implementazione

Il sistema è eseguito su una scheda grafica RTX 5060 Ti dotata di 16GB di VRAM. La dimostrazione video mostra tempi di latenza e risposta utilizzando Qwen3 (ASR e TTS 1.7B, Qwen3 4B Instruct 2507) con una clonazione vocale. Il progetto include strumenti per controllare dispositivi come Philips Hue, sistemi di climatizzazione AirTouch e recupero di informazioni meteorologiche online (specifico per l'Australia).

Modelli Alternativi

Sono stati testati anche modelli più piccoli per la generazione di intenti, ma la qualità della risposta è diminuita drasticamente con modelli LLM inferiori a 4 miliardi di parametri. Kokoro (TTS) e Moonshine (ASR) sono inclusi come opzioni per sistemi con risorse limitate.

Per chi valuta deployment on-premise, esistono trade-off in termini di costi iniziali, manutenzione e consumo energetico. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.