Compressione e Ragionamento nei Modelli Linguistici

Un recente studio ha esplorato come la compressione dei prompt influenzi le prestazioni dei modelli linguistici di grandi dimensioni (LLM) in diversi compiti. La ricerca si è concentrata sulla generazione di codice e sul ragionamento, rivelando risultati sorprendenti.

Il Paradosso Perplexity

I ricercatori hanno scoperto un fenomeno chiamato "paradosso perplexity". Nei compiti di generazione di codice, i modelli tollerano una compressione aggressiva dei prompt (fino al 60%). Al contrario, nei compiti di ragionamento, come la risoluzione di problemi matematici, le prestazioni si degradano gradualmente con la compressione. L'analisi per-token ha rivelato che i token relativi alla sintassi del codice vengono preservati (alta perplexity), mentre i valori numerici nei problemi matematici vengono scartati, nonostante siano cruciali per il compito (bassa perplexity).

Signature Injection e TAAC

Per mitigare questo problema, è stata introdotta una tecnica chiamata "signature injection", che ha migliorato significativamente il pass rate nei compiti matematici (dal 5.3% al 39.3%). Inoltre, è stato proposto un algoritmo di compressione adattiva chiamato TAAC (Task-Aware Adaptive Compression), che ha permesso una riduzione dei costi del 22% mantenendo la qualità al 96%, superando la compressione a rapporto fisso del 7%.

Validazione su Diversi Benchmark

Lo studio ha validato i risultati su diversi benchmark di codice (HumanEval, MBPP, HumanEval+, MultiPL-E) e di ragionamento (GSM8K, MATH, ARC-Challenge, MMLU-STEM), confermando che la soglia di compressione si generalizza tra linguaggi e livelli di difficoltà.