Un recente test ha dimostrato la possibilità di eseguire il modello linguistico Qwen 3.5–9B localmente su un MacBook Air (M4, 16 GB) grazie all'implementazione dell'algoritmo di compressione TurboQuant di Google.

Dettagli dell'implementazione

L'esperimento ha coinvolto l'applicazione di una patch a llama.cpp con il metodo TurboQuant. Successivamente, il modello Qwen 3.5–9B è stato eseguito con un context window di 20000 token. In precedenza, gestire prompt di queste dimensioni su un dispositivo del genere era considerato impraticabile.

Implicazioni

Questo sviluppo suggerisce che l'esecuzione di modelli di linguaggio open source su dispositivi consumer come MacBook Air o Mac Mini potrebbe diventare una realtà. Sebbene le prestazioni attuali siano ancora limitate, i progressi nell'hardware promettono di migliorare ulteriormente la velocità di inference. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.

Disponibilità

Una applicazione per macOS che implementa questa tecnicia è disponibile open source.