Compressione e Ragionamento nei Modelli Linguistici
Un recente studio ha esplorato come la compressione dei prompt influenzi le prestazioni dei modelli linguistici di grandi dimensioni (LLM) in diversi compiti. La ricerca si è concentrata sulla generazione di codice e sul ragionamento, rivelando risultati sorprendenti.
Il Paradosso Perplexity
I ricercatori hanno scoperto un fenomeno chiamato "paradosso perplexity". Nei compiti di generazione di codice, i modelli tollerano una compressione aggressiva dei prompt (fino al 60%). Al contrario, nei compiti di ragionamento, come la risoluzione di problemi matematici, le prestazioni si degradano gradualmente con la compressione. L'analisi per-token ha rivelato che i token relativi alla sintassi del codice vengono preservati (alta perplexity), mentre i valori numerici nei problemi matematici vengono scartati, nonostante siano cruciali per il compito (bassa perplexity).
Signature Injection e TAAC
Per mitigare questo problema, è stata introdotta una tecnica chiamata "signature injection", che ha migliorato significativamente il pass rate nei compiti matematici (dal 5.3% al 39.3%). Inoltre, è stato proposto un algoritmo di compressione adattiva chiamato TAAC (Task-Aware Adaptive Compression), che ha permesso una riduzione dei costi del 22% mantenendo la qualità al 96%, superando la compressione a rapporto fisso del 7%.
Validazione su Diversi Benchmark
Lo studio ha validato i risultati su diversi benchmark di codice (HumanEval, MBPP, HumanEval+, MultiPL-E) e di ragionamento (GSM8K, MATH, ARC-Challenge, MMLU-STEM), confermando che la soglia di compressione si generalizza tra linguaggi e livelli di difficoltà.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!