Non è una classifica ufficiale, né un report firmato da vendor. È una domanda lanciata su Reddit, sotto il nickname /u/rm-rf-rm, che a luglio 2026 ha catalizzato uno scambio fitto di esperienze su un tema caldo per chi gestisce infrastrutture di intelligenza artificiale lontano dai cloud pubblici: quali sono i migliori Vision-Language Model da eseguire in locale e, soprattutto, con che configurazione.

La discussione, vincolata a modelli con pesi aperti, mette subito in chiaro la natura sdrucciolevole della valutazione dei VLM. I benchmark standard, nota l’autore, restano inaffidabili; la strumentazione per testarli è ancora immatura e la variabilità intrinseca di queste architetture rende ogni prova riproducibile solo a fatica. Per questo il thread chiede di descrivere nei dettagli l’hardware, l’engine di inference, i framework di prompting e il contesto d’uso: dall’utente che sperimenta nel tempo libero al professionista che integra la visione artificiale in pipeline aziendali.

Ciò che colpisce, leggendo le risposte, non sono tanto i nomi dei modelli — nessuno ha la pretesa di stilare una hit parade — quanto la densità di informazioni operative che i partecipanti offrono spontaneamente. Si parla di VRAM disponibile, di livelli di quantization (spesso INT8, a volte FP16 per carichi più pesanti), di engine come Ollama, vLLM o TGI, e del bilanciamento fra latenza e accuratezza quando si processano immagini e testo in un unico flusso di token. Emerge una fotografia puntuale di ciò che significa, nel 2026, fare inference visiva on-premise.

Per il target di AI-RADAR la rilevanza è duplice. Da un lato, la scelta di modelli open-weight risponde a esigenze di sovranità dei dati e controllo, le stesse che spingono molte organizzazioni a mantenere gli LLM dentro i propri confini fisici. Dall’altro, la cura con cui la community indica quantization, consumo di VRAM e configurazioni di serving mostra come il Total Cost of Ownership (TCO) sia ormai una bussola quotidiana anche per gli sperimentatori individuali. Non bastano un modello “bravo” e una scheda potente: serve la combinazione giusta per evitare colli di bottiglia e costi energetici insostenibili.

La discussione svela anche un’assenza che ha il peso di un dato: non esiste ancora un framework di valutazione condiviso per i VLM locali. Ci si affida a report personali, a gallerie di immagini e a prompt artigianali. Un approccio che rallenta l’adozione in ambiti regolati, dove audit e riproducibilità sono obbligatori, ma che allo stesso tempo produce una conoscenza pragmatica, preziosa per chi deve decidere come dimensionare un server dedicato all’inference o quale engine adottare in un cluster già esistente.

Dalle risposte si intuisce anche l’evoluzione del parco hardware: non più solo GPU di fascia alta, ma un crescente utilizzo di workstation con più schede consumer collegate via PCIe, soluzioni che abbassano la barriera economica senza rinunciare del tutto alle prestazioni. È un segnale per i fornitori di infrastruttura e per i system integrator: il mercato chiede flessibilità e compatibilità con stack aperti, non pacchetti preconfezionati.

Il valore di questi scambi informali sta proprio nella loro natura non filtrata. Mentre i whitepaper aziendali promettono metriche ideali e i leaderboard ufficiali faticano a riflettere i carichi reali, sono i forum tecnici a offrire i segnali più concreti su cosa funziona giorno per giorno, in produzione o in laboratorio. Chi è chiamato a progettare infrastrutture on-premise per LLM multimodali farebbe bene a seguirli con attenzione.