Compressione efficiente per modelli linguistici di grandi dimensioni

I modelli linguistici di grandi dimensioni (LLM) richiedono risorse computazionali e di memoria sempre maggiori, rendendo la compressione un aspetto cruciale per la loro implementazione e il loro continuo addestramento. Un nuovo studio introduce un metodo di compressione chiamato Hierarchical Sparse Plus Low-Rank (HSS) che mira a ridurre questo problema.

La tecnica HSS opera in due fasi: in primo luogo, identifica ed elimina i pesi di magnitudo maggiore, creando una matrice sparsa. Successivamente, applica una fattorizzazione ricorsiva a basso rango alla matrice residua densa. Questo approccio massimizza la comprimibilità, mantenendo al contempo le prestazioni del modello.

Risparmio di memoria e prestazioni competitive

I test sul modello LLaMA-7B hanno dimostrato che l'applicazione di HSS alle proiezioni di auto-attenzione (circa 1.6 miliardi di parametri) è sufficiente per ottenere un notevole risparmio di memoria, mantenendo al contempo risultati di perplexity paragonabili allo stato dell'arte sul dataset WikiText. In particolare, con un budget di sparsità del 30% e un rango esterno di 512, la variante sHSS-RCM ha raggiunto una perplexity di 1.64, superando sia le baseline dense che le varianti sparse-plus-SVD classiche.

Questo nuovo metodo di compressione offre un promettente equilibrio tra efficienza e accuratezza, aprendo la strada a implementazioni più accessibili e sostenibili dei modelli linguistici di grandi dimensioni.