La chiamata della community e il primo benchmark

Su Reddit, l’utente u/neverbyte ha lanciato una richiesta semplice e pragmatica: «Chi sta eseguendo GLM 5.2 in locale può condividere motore di inference, specifiche hardware, quantization, dimensione del contesto e token al secondo?». L’obiettivo è chiaro: mappare le performance reali del modello al di fuori delle condizioni controllate dei benchmark ufficiali, raccogliendo dati da sistemi concreti, spesso assemblati con hardware consumer o ricondizionato.

Il primo a rispondere è stato lo stesso u/neverbyte, fornendo una configurazione che fa già discutere: motore llamma.cpp, sei schede RTX 3090, 128 GB di DDR5, processore i7-13700K, quantization UD-IQ2_M e finestra di contesto portata a 90.000 token con cache K/V a Q8_0. La generazione si è attestata a 7,8 token al secondo, mentre l’elaborazione del prompt ha raggiunto circa 40 token al secondo.

Una configurazione estrema per un contesto estremo

Il dato più rilevante è la scelta di spingere il modello con un contesto amplissimo – 90 K token – e una quantization a soli 2 bit. La UD-IQ2_M (progetto Unsloth) rappresenta una delle varianti più spinte di riduzione della precisione, che comprime drasticamente i parametri per far entrare l’LLM nella memoria video disponibile. Con sei RTX 3090 si hanno a disposizione 144 GB di VRAM, ma l’uso di una cache K/V quantizzata a 8 bit mostra che i progettisti di questo setup hanno privilegiato la lunghezza del contesto rispetto alla qualità dei singoli token generati.

7,8 token al secondo non sono una velocità da record: in molti scenari di chat in tempo reale, valori inferiori a 10 token/s possono risultare percettibili e ridurre la fluidità dell’interazione. Tuttavia va considerato che stiamo parlando di un sistema interamente locale, senza latenze di rete e con piena sovranità sui dati.

Cosa significa per chi valuta il deployment on-premise

Per chi sta valutando di portare modelli di fascia alta in azienda o in laboratorio, il caso GLM 5.2 è istruttivo. Sei RTX 3090 sul mercato dell’usato hanno un costo aggregato non trascurabile e consumano diverse centinaia di watt, incidendo sul TCO. La quantization estrema permette di contenere l’investimento in hardware, ma introduce un trade-off: riduce l’accuratezza del modello, specialmente su compiti complessi o ragionamenti lunghi.

AI-RADAR segue da vicino le metriche reali fornite dalla community proprio perché sono la cartina di tornasole delle scelte di deployment on-premise. La domanda non è solo «si può eseguire?», ma «a quale costo in termini di qualità e latenza?» – e numeri come questi aiutano a formulare un’analisi TCO più realistica.

Contesto lungo vs. velocità: il punto di equilibrio

Portare la finestra di contesto a 90.000 token su una GPU consumer è un risultato tecnico significativo. Significa poter elaborare l’equivalente di centinaia di pagine in una singola richiesta, abilitando applicazioni come l’analisi di grandi documenti legali, il riassunto di interi codebase o la ricerca su knowledge base estese. Il prezzo è però una generazione lenta (7,8 token/s) e una elaborazione del prompt a 40 token/s – numeri che, in produzione, potrebbero non essere accettabili per applicazioni interattive.

Il dibattito aperto da u/neverbyte non è quindi solo una curiosità da smanettoni: mostra che la prossima frontiera dell’LLM on-premise sarà trovare un punto di equilibrio tra contesto, velocità e precisione, sfruttando quantizzazioni evolute come quelle offerte da Unsloth, ma senza dimenticare che ogni bit in meno significa informazione persa.

Uno sguardo al framework più ampio

Questo primo benchmark comunitario ricorda che l’ecosistema dell’inference locale è fatto di scelte incrementali: dalla selezione del motore (llamma.cpp, vLLM, TGI) alla combinazione di GPU, passando per la quantization e la gestione della memoria. GLM 5.2, modello sviluppato da Tsinghua e distribuito con licenza aperta, si presta bene a sperimentazioni di questo tipo, proprio per la sua architettura che ben si adatta a essere compressa e adattata a contesti estesi.

Il dato più utile per il pubblico di AI-RADAR è la conferma che anche con hardware di fascia consumer datato (le RTX 3090 sono state lanciate nel 2020) è possibile lavorare con contesti molto larghi, purché si accettino compromessi sulla velocità e si investa in configurazioni multi-GPU. La discussione su Reddit, con la promessa di nuove metriche da parte di altri utenti, sarà un termometro importante per capire se i 7,8 token/s rappresentano un outlier o il valore tipico di questa classe di deployment.