Ottimizzazione della cache KV per LLM Chain-of-Thought

Il ragionamento Chain-of-Thought (CoT) nei modelli linguistici di grandi dimensioni (LLM) migliora l'accuratezza su task complessi, ma richiede un elevato overhead di memoria a causa delle lunghe sequenze di pensiero archiviate nella cache Key-Value (KV).

Un nuovo approccio, denominato Crystal-KV, gestisce in modo efficiente la cache KV, sfruttando il principio "answer-first".

Crystal-KV distingue tra:

  • SlipKV: mantiene il flusso di ragionamento ma può introdurre occasionalmente un contesto fuorviante.
  • CrystalKV: contribuisce alla correttezza della risposta finale.

Funzionamento di Crystal-KV

Crystal-KV utilizza un algoritmo Least Recently Frequently Used basato sull'attenzione per identificare quando l'utilità di una voce SlipKV scade e la rimuove, conservando CrystalKV senza interrompere il flusso di ragionamento. Inoltre, introduce un algoritmo adattivo di allocazione del budget della cache che stima l'importanza di ciascun layer/head e regola il budget della cache KV durante l'inference, amplificando i componenti critici per migliorare l'utilizzo del budget.

I risultati mostrano che Crystal-KV raggiunge una compressione della cache KV allo stato dell'arte, migliora significativamente il throughput e consente tempi di risposta più rapidi, mantenendo o addirittura migliorando l'accuratezza della risposta per il ragionamento CoT.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.