Compressione efficiente per modelli linguistici di grandi dimensioni
I modelli linguistici di grandi dimensioni (LLM) richiedono risorse computazionali e di memoria sempre maggiori, rendendo la compressione un aspetto cruciale per la loro implementazione e il loro continuo addestramento. Un nuovo studio introduce un metodo di compressione chiamato Hierarchical Sparse Plus Low-Rank (HSS) che mira a ridurre questo problema.
La tecnica HSS opera in due fasi: in primo luogo, identifica ed elimina i pesi di magnitudo maggiore, creando una matrice sparsa. Successivamente, applica una fattorizzazione ricorsiva a basso rango alla matrice residua densa. Questo approccio massimizza la comprimibilitร , mantenendo al contempo le prestazioni del modello.
Risparmio di memoria e prestazioni competitive
I test sul modello LLaMA-7B hanno dimostrato che l'applicazione di HSS alle proiezioni di auto-attenzione (circa 1.6 miliardi di parametri) รจ sufficiente per ottenere un notevole risparmio di memoria, mantenendo al contempo risultati di perplexity paragonabili allo stato dell'arte sul dataset WikiText. In particolare, con un budget di sparsitร del 30% e un rango esterno di 512, la variante sHSS-RCM ha raggiunto una perplexity di 1.64, superando sia le baseline dense che le varianti sparse-plus-SVD classiche.
Questo nuovo metodo di compressione offre un promettente equilibrio tra efficienza e accuratezza, aprendo la strada a implementazioni piรน accessibili e sostenibili dei modelli linguistici di grandi dimensioni.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!