Un utente ha riportato di essere riuscito a far girare il modello linguistico Qwen3 30B su un Raspberry Pi 5 da 8GB, ottenendo una velocità di 7-8 token al secondo.
Dettagli dell'implementazione
L'implementazione include:
- Un SSD per storage più veloce.
- Il cooler attivo ufficiale per Raspberry Pi 5.
- Una build custom di
ik_llama.cpp. - Prompt caching.
Il modello utilizzato è byteshape/Qwen3-30B-A3B-Instruct-2507-GGUF, specificamente la quantization Q3_K_S 2.66bpw. L'utente segnala che con una quantization a 4 bit della stessa famiglia di modelli, si possono aspettare 4-5 token al secondo.
Potato OS
Il tutto è pacchettizzato come un'immagine Debian headless flashabile chiamata Potato OS. Dopo il boot, viene scaricato automaticamente Qwen3.5 2B con vision encoder. È possibile selezionare un modello differente, incollare un URL di HuggingFace, o caricarne uno via LAN attraverso l'interfaccia web. Espone un'API compatibile con OpenAI sulla rete locale.
Considerazioni
Per chi valuta deployment on-premise, esistono trade-off tra performance, costi e controllo dei dati. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!