Modello sperimentale con attenzione subquadratica: fino a 10M di contesto

Attenzione subquadratica per modelli LLM: un nuovo approccio

È stato presentato un nuovo modello sperimentale che implementa un meccanismo di attenzione subquadratica. Questo approccio mira a ridurre la complessità computazionale tipica dei modelli transformer, consentendo di gestire contesti molto più ampi con risorse hardware limitate.

L'idea chiave è di sostituire la ricerca esaustiva (O(L)) nell'attenzione standard con una ricerca a salti (O(L^0.5)) guidata da routing appreso. Questo riduce la complessità totale a O(L^(3/2)), consentendo di scalare a contesti di 1M–10M di token su una singola GPU.

Performance e caratteristiche

Il modello da 30B, testato su una singola GPU B200, ha mostrato le seguenti performance:

1M di token di contesto: Prefill ~20.202 tok/s, Decode ~109 tok/s, 66 GB di memoria
10M di token di contesto: Prefill ~5.576 tok/s, Decode ~76 tok/s, ~120 GB di memoria

Un aspetto cruciale è che l'aumento di 10 volte della lunghezza del contesto ha comportato solo un calo del 30% nella velocità di decodifica, contrariamente al rallentamento di 10 volte che si verificherebbe con l'attenzione densa.

Il modello viene fornito con un server compatibile con OpenAI e una CLI, facilitando l'integrazione e il testing. Sono in programma miglioramenti futuri, tra cui la quantization a 4-bit/8-bit per consentire l'esecuzione su GPU consumer con 24GB di VRAM (es. RTX 4090 / RTX 5090) e il porting su AMD ROCm e Apple Silicio.

Implicazioni per il deployment on-premise

La capacità di gestire contesti estesi con requisiti hardware relativamente contenuti apre nuove possibilità per il deployment on-premise di modelli LLM. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.

Modello sperimentale con attenzione subquadratica: fino a 10M di contesto

Attenzione subquadratica per modelli LLM: un nuovo approccio

Performance e caratteristiche

Implicazioni per il deployment on-premise

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Qwen3.5-0.8B: inference LLM su hardware datato senza GPU

Anthropic segnala attacchi di 'distillazione' ai suoi modelli

Gemma: la community invoca il ritorno dei modelli Google

👥 Unisciti a 160+ appassionati di AI