Gli LLM eseguiti in locale hanno appena superato un test pragmatico: completare compiti di coding reale più velocemente delle controparti cloud, senza drammatiche perdite di qualità. È quanto emerge da un benchmark indipendente pubblicato dall’utente Reddit /u/xquarx, che ha messo alla prova DeepSeek V4 Flash su due schede grafiche RTX PRO 6000 con il serving framework vLLM, confrontandolo con le API di Sonnet e Opus di Anthropic.

I risultati raccontano una storia interessante. DeepSeek V4 Flash ha impiegato in media circa 2 minuti per task, mentre Sonnet 5 – il più lento del gruppo – ne ha richiesti circa 6. Un divario di un fattore 3x che, su lunghe sessioni di sviluppo, si traduce in un risparmio di tempo tangibile. La qualità delle soluzioni prodotte, misurata sulla capacità di generare diff corretti e utili, si è attestata intorno a quella di Sonnet, sebbene i modelli Opus e Fable (via API) mantengano un margine netto di superiorità: per la singola migliore risposta restano loro il riferimento.

Il test non è stato condotto in condizioni asettiche. L’autore ha scelto di rispecchiare l’uso reale: i modelli locali giravano all’interno di OpenCode, mentre le API in Claude Code. Un dettaglio importante: parte del gap prestazionale non è imputabile solo ai modelli, ma anche all’harness di esecuzione. Tuttavia, la domanda a cui si voleva rispondere non era quale modello vince nel vuoto, bensì cosa si ottiene realmente quando ciascun sistema è configurato come lo userebbe uno sviluppatore. E la risposta è che, se si evita l’attenzione densa – un tallone d’Achille per molti LLM su contesti lunghi – i modelli locali oggi sono sorprendentemente veloci e, per la prima volta, davvero competitivi in ambito coding.

L’hardware scelto non è banale: due RTX PRO 6000 offrono un totale di 96 GB di VRAM, una quantità sufficiente per ospitare modelli di taglia media senza dover scendere a compromessi estremi con la quantization. vLLM, dal canto suo, è uno dei serving framework più diffusi per l’inference ad alte prestazioni, capace di gestire efficientemente l’attenzione continua senza i colli di bottiglia che affliggono approcci più naïve. L’intero setup è self-hosted, interamente sotto il controllo dell’utente, con tutti i vantaggi di privacy e sovranità dei dati che ne conseguono – un aspetto sempre più critico quando si lavora su codice proprietario.

Per chi valuta il deployment on-premise di assistenti di coding basati su LLM, questo test segnala un possibile punto di svolta. Non si tratta più di accettare risposte lente e approssimative in cambio dell’indipendenza dal cloud. Con l’accelerazione giusta e le ottimizzazioni di serving, si può oggi ottenere una velocità di iterazione superiore a quella delle API, mantenendo una qualità sufficiente per molti task quotidiani. Resta il trade-off: Opus e Fable garantiscono ancora la miglior precisione, e per attività dove il costo di un errore è alto la scelta potrebbe ricadere ancora sui modelli proprietari. Ma per la maggior parte delle sessioni di sviluppo, dove il tempo di attesa conta e si cerca un feedback rapido, la configurazione locale offre un’esperienza più fluida.

Per chi si trova a valutare scelte analoghe, AI-RADAR offre framework analitici su /llm-onpremise per navigare i compromessi tra costo, prestazioni e controllo. L’autore del benchmark ha pubblicato l’intera batteria di dati, grafici e fogli di calcolo su un sito dedicato, e promette di ripetere i test con i modelli che arriveranno in futuro. Un segnale che il sorpasso dell’inference on-device sulle API non è più fantascienza, ma una realtà misurabile.