Spingere modelli da 35 miliardi di parametri su una singola GPU resta una sfida centrale per chi sceglie l’inference on-premise. La comunità che ruota attorno a llama.cpp lo sa bene: quantization aggressiva e tecniche di decoding speculativo sono le leve per abbattere la latenza senza cedere sul controllo dei dati. L’ultimo contributo arriva da un’aggiunta sperimentale al formato GGUF di Ornith-1.0-35B, dove un utente ha innestato un draft head nativo MTP (Multi-Token Prediction) sul corpo IQ4_XS, ottenendo un’accelerazione del 35% nella decodifica single-stream.

Il meccanismo del graft e i primi riscontri

Il cuore dell’intervento è un self-speculative decode: la testa MTP, mantenuta a precisione Q6, produce in anticipo sequenze di token che il corpo IQ4_XS verifica in parallelo, aumentando il throughput reale. Su scheda RTX PRO 6000 Blackwell da 96 GB, tp=1, il salto è netto: da 172.6 a 233.8 token/s. Ancora più rilevante, la distribuzione del token successivo rimane byte-identica a quella del modello target su 32 test – divergenza KL pari a 0.0. Messo a confronto con il Q4_K_M, il graft mostra una divergenza KL rispetto a BF16 di 0.073 (contro 0.086), segno che l’innesto non introduce degrado aggiuntivo. L’unico neo: su generazioni deterministiche lunghe non c’è bit-exactness perfetta (6/8 esatte, corrispondenza dei token al 93.4%), un trade-off classico quando si spinge sulla velocità.

Benchmark a tutto tondo

L’aggiornamento porta con sé una batteria di test su sei quantizzazioni, con numeri di throughput, latenza p95 TTFT e un fidelity ladder basato sulla KL media dei primi 64 token rispetto a BF16. Il Q4_K_M, per esempio, offre 243 token/s a concorrenza 1 e arriva a circa 656 token/s con 16 richieste simultanee, con un TTFT p95 di 76 ms in singolo stream. L’IQ4_XS-MTP graft occupa circa 19.6 GB, meno del Q4_K_M (21.2 GB) ma con un top-1 accuracy del 90.6%, identico al Q4_K_M e superiore all’IQ4_XS liscio (84.4%). Sul fronte del long context, il prefill scala in modo lineare: 94 ms per 512 token e circa 6.3 secondi per 32k token, con il graft che batte il Q4_K_M a ogni lunghezza testata.

Perché interessa chi gestisce LLM in locale

Questa sperimentazione non è solo un esercizio di bravura. Mostra come il decoding speculativo nativo – senza appoggiarsi a modelli draft esterni – possa ridurre la latenza di generazione su macchine self-hosted, mantenendo l’inference interamente sotto il proprio controllo. In scenari dove la sovranità dei dati o la prevedibilità dei costi contano più della flessibilità del cloud, un boost del 35% su singola GPU può tradursi in una migliore TCO o nella possibilità di servire più utenti con lo stesso hardware. La fidelity ladder diventa uno strumento decisionale pratico: quantizzazioni più spinte riducono la memoria ma erodono l’accuratezza; tecniche come questo graft riscrivono il confine accettabile. AI-RADAR segue da vicino questi sviluppi, offrendo su /llm-onpremise framework analitici per valutare i compromessi senza perdere di vista le esigenze reali di chi porta i LLM in casa propria.