Qwen3 30B gira a 7-8 token/s su Raspberry Pi 5

Un utente ha riportato di essere riuscito a far girare il modello linguistico Qwen3 30B su un Raspberry Pi 5 da 8GB, ottenendo una velocità di 7-8 token al secondo.

Dettagli dell'implementazione

L'implementazione include:

Un SSD per storage più veloce.
Il cooler attivo ufficiale per Raspberry Pi 5.
Una build custom di ik_llama.cpp.
Prompt caching.

Il modello utilizzato è byteshape/Qwen3-30B-A3B-Instruct-2507-GGUF, specificamente la quantization Q3_K_S 2.66bpw. L'utente segnala che con una quantization a 4 bit della stessa famiglia di modelli, si possono aspettare 4-5 token al secondo.

Potato OS

Il tutto è pacchettizzato come un'immagine Debian headless flashabile chiamata Potato OS. Dopo il boot, viene scaricato automaticamente Qwen3.5 2B con vision encoder. È possibile selezionare un modello differente, incollare un URL di HuggingFace, o caricarne uno via LAN attraverso l'interfaccia web. Espone un'API compatibile con OpenAI sulla rete locale.

Considerazioni

Per chi valuta deployment on-premise, esistono trade-off tra performance, costi e controllo dei dati. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Qwen3 30B gira a 7-8 token/s su Raspberry Pi 5

Dettagli dell'implementazione

Potato OS

Considerazioni

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

LLM di ByteShape: modelli coder per ogni hardware, incluso Raspberry Pi

LLM in locale: prestazioni in crescita con hardware compatto

Qwen3-Coder-Next: Quantization NVFP4 disponibile (45GB)