Un utente ha riportato di essere riuscito a far girare il modello linguistico Qwen3 30B su un Raspberry Pi 5 da 8GB, ottenendo una velocità di 7-8 token al secondo.

Dettagli dell'implementazione

L'implementazione include:

  • Un SSD per storage più veloce.
  • Il cooler attivo ufficiale per Raspberry Pi 5.
  • Una build custom di ik_llama.cpp.
  • Prompt caching.

Il modello utilizzato è byteshape/Qwen3-30B-A3B-Instruct-2507-GGUF, specificamente la quantization Q3_K_S 2.66bpw. L'utente segnala che con una quantization a 4 bit della stessa famiglia di modelli, si possono aspettare 4-5 token al secondo.

Potato OS

Il tutto è pacchettizzato come un'immagine Debian headless flashabile chiamata Potato OS. Dopo il boot, viene scaricato automaticamente Qwen3.5 2B con vision encoder. È possibile selezionare un modello differente, incollare un URL di HuggingFace, o caricarne uno via LAN attraverso l'interfaccia web. Espone un'API compatibile con OpenAI sulla rete locale.

Considerazioni

Per chi valuta deployment on-premise, esistono trade-off tra performance, costi e controllo dei dati. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.