Attenzione subquadratica per modelli LLM: un nuovo approccio

È stato presentato un nuovo modello sperimentale che implementa un meccanismo di attenzione subquadratica. Questo approccio mira a ridurre la complessità computazionale tipica dei modelli transformer, consentendo di gestire contesti molto più ampi con risorse hardware limitate.

L'idea chiave è di sostituire la ricerca esaustiva (O(L)) nell'attenzione standard con una ricerca a salti (O(L^0.5)) guidata da routing appreso. Questo riduce la complessità totale a O(L^(3/2)), consentendo di scalare a contesti di 1M–10M di token su una singola GPU.

Performance e caratteristiche

Il modello da 30B, testato su una singola GPU B200, ha mostrato le seguenti performance:

  • 1M di token di contesto: Prefill ~20.202 tok/s, Decode ~109 tok/s, 66 GB di memoria
  • 10M di token di contesto: Prefill ~5.576 tok/s, Decode ~76 tok/s, ~120 GB di memoria

Un aspetto cruciale è che l'aumento di 10 volte della lunghezza del contesto ha comportato solo un calo del 30% nella velocità di decodifica, contrariamente al rallentamento di 10 volte che si verificherebbe con l'attenzione densa.

Il modello viene fornito con un server compatibile con OpenAI e una CLI, facilitando l'integrazione e il testing. Sono in programma miglioramenti futuri, tra cui la quantization a 4-bit/8-bit per consentire l'esecuzione su GPU consumer con 24GB di VRAM (es. RTX 4090 / RTX 5090) e il porting su AMD ROCm e Apple Silicio.

Implicazioni per il deployment on-premise

La capacità di gestire contesti estesi con requisiti hardware relativamente contenuti apre nuove possibilità per il deployment on-premise di modelli LLM. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.