Compressione LLM: nuovo metodo gerarchico per ridurre memoria e calcolo

Compressione efficiente per modelli linguistici di grandi dimensioni

I modelli linguistici di grandi dimensioni (LLM) richiedono risorse computazionali e di memoria sempre maggiori, rendendo la compressione un aspetto cruciale per la loro implementazione e il loro continuo addestramento. Un nuovo studio introduce un metodo di compressione chiamato Hierarchical Sparse Plus Low-Rank (HSS) che mira a ridurre questo problema.

La tecnica HSS opera in due fasi: in primo luogo, identifica ed elimina i pesi di magnitudo maggiore, creando una matrice sparsa. Successivamente, applica una fattorizzazione ricorsiva a basso rango alla matrice residua densa. Questo approccio massimizza la comprimibilità, mantenendo al contempo le prestazioni del modello.

Risparmio di memoria e prestazioni competitive

I test sul modello LLaMA-7B hanno dimostrato che l'applicazione di HSS alle proiezioni di auto-attenzione (circa 1.6 miliardi di parametri) è sufficiente per ottenere un notevole risparmio di memoria, mantenendo al contempo risultati di perplexity paragonabili allo stato dell'arte sul dataset WikiText. In particolare, con un budget di sparsità del 30% e un rango esterno di 512, la variante sHSS-RCM ha raggiunto una perplexity di 1.64, superando sia le baseline dense che le varianti sparse-plus-SVD classiche.

Questo nuovo metodo di compressione offre un promettente equilibrio tra efficienza e accuratezza, aprendo la strada a implementazioni più accessibili e sostenibili dei modelli linguistici di grandi dimensioni.

Compressione LLM: nuovo metodo gerarchico per ridurre memoria e calcolo

Compressione efficiente per modelli linguistici di grandi dimensioni

Risparmio di memoria e prestazioni competitive

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Paradosso Perplexity: LLM e Compressione del Codice

Nuovo approccio per l'inferenza efficiente con agenti AI a memoria limitata

Mini-LLM: un modello Llama 3 da 80 milioni di parametri

👥 Unisciti a 160+ appassionati di AI