La promessa di un Large Language Model da un milione di token in esecuzione locale si scontra quasi sempre con la voracità di VRAM. DeepSeek V4 Flash, con il suo indice DSA lightning, non faceva eccezione: senza ottimizzazioni, servivano circa 256 GB di memoria video per raggiungere quell’ampiezza di contesto, una cifra che esclude anche le workstation più generose. Poi è arrivata una patch.
Un contributore della community ha individuato una lacuna nel supporto di llama.cpp per l’indice lightning del modello. La pull request upstream #24231 (firmata da u/fairydreaming) gettava le basi, ma mancava l’integrazione nel grafo del modello e il percorso CUDA. Il lavoro è stato completato cablando il componente e scrivendo un kernel CUDA ad hoc, testato su una RTX 5090, processore 9950X3D e 96 GB di DDR5, con DeepSeek-V4-Flash in quantization mista Q8/Q4/Q2 preparata da antirez.
I numeri raccontano il salto. Con 256K di contesto il buffer di calcolo è crollato da 67 GiB (out‑of‑memory) a 3,2 GiB; il prefill è balzato da 56 a circa 263 token/s, mentre la decodifica è rimasta stabile intorno a 14 token/s. Il risultato più sorprendente è il funzionamento a 1 milione di token: impossibile prima (servivano ~256 GB), oggi occupa 3,75 GiB con ubatch a 768 e circa 6 GiB a 2048, con un picco di VRAM di 31 GiB. La velocità di prefill cala a 159 token/s solo per via dell’ubatch ridotto su una GPU da 32 GB; con più VRAM si tornerebbe a regime pieno.
L’affidabilità è stata verificata con un classico test needle‑in‑haystack: un dato seminato in un documento di 100K, 512K e 1M di token è stato recuperato correttamente ogni volta, anche alla profondità del 50% nel test più severo.
Per chi valuta deployment on‑premise, il significato è concreto. Poter gestire corpus di centinaia di migliaia di token su una singola GPU consumer – una RTX 5090 da duemila dollari – stravolge il calcolo del Total Cost of Ownership e rende l’inference a lunghissimo contesto accessibile a studi legali, assicurativi o di ricerca che devono mantenere i dati entro i propri confini fisici. AI‑RADAR ha dedicato percorsi analitici su /llm‑onpremise per chi deve soppesare questi trade‑off, ma la direzione è chiara: l’open‑source e la comunità stanno colmando il divario prima dei vendor, abbattendo barriere hardware che fino a ieri apparivano insormontabili. La patch non è ancora ufficialmente integrata ed è stata testata su una sola GPU, ma il segnale è forte: la corsa alla lunghezza del contesto non è più appannaggio esclusivo dei data center.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!