Ottimizzazione della cache KV per LLM Chain-of-Thought
Il ragionamento Chain-of-Thought (CoT) nei modelli linguistici di grandi dimensioni (LLM) migliora l'accuratezza su task complessi, ma richiede un elevato overhead di memoria a causa delle lunghe sequenze di pensiero archiviate nella cache Key-Value (KV).
Un nuovo approccio, denominato Crystal-KV, gestisce in modo efficiente la cache KV, sfruttando il principio "answer-first".
Crystal-KV distingue tra:
- SlipKV: mantiene il flusso di ragionamento ma può introdurre occasionalmente un contesto fuorviante.
- CrystalKV: contribuisce alla correttezza della risposta finale.
Funzionamento di Crystal-KV
Crystal-KV utilizza un algoritmo Least Recently Frequently Used basato sull'attenzione per identificare quando l'utilità di una voce SlipKV scade e la rimuove, conservando CrystalKV senza interrompere il flusso di ragionamento. Inoltre, introduce un algoritmo adattivo di allocazione del budget della cache che stima l'importanza di ciascun layer/head e regola il budget della cache KV durante l'inference, amplificando i componenti critici per migliorare l'utilizzo del budget.
I risultati mostrano che Crystal-KV raggiunge una compressione della cache KV allo stato dell'arte, migliora significativamente il throughput e consente tempi di risposta più rapidi, mantenendo o addirittura migliorando l'accuratezza della risposta per il ragionamento CoT.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!