# Introduzione
I modelli di grandi dimensioni (LLMs), come Llama-3, sono sempre più diffusi nella ricerca e nell'applicazione pratica. Tuttavia, la loro implementazione richiede risorse hardware considerevoli, portando a problemi di memoria e latenza.
La quantizzazione è una tecnica utilizzata per ridurre la dimensione dei pesi, riducendo così la memoria necessaria per l'inversione. Tuttavia, questo metodo può compromettere la precisione dell'output, particolarmente a bassa dimensionalità (ad esempio 2 bit).
In questo contesto, i metodi di codifica sono stati sviluppati per esplorare la possibilità di raggiungere accurati risultati con una riduzione notevole della dimensione dei pesi.
Il nuovo lavoro presenta CodeGEMM, un kernel di GEMM (Generalized Matrix Multiplication) che utilizza un approccio codicentrico per ottimizzare la performance dei modelli LLM quantizzati.
## Come funziona CodeGEMM?
CodeGEMM sostituisce la dequantizzazione, una procedura complessa e lenta che richiede frequenti calcoli di centroidi e ricostruzioni dei pesi. Questo kernel precalcola gli inner product tra i centroidi e le attivazioni archiviate in un libro di codici leggero Psumbook.
In questo modo, al momento dell'inversione, i codici sono directly utilizzati per raccogliere i partial sum, evitando così le look up per elemento e riducendo l'occupazione della piastra on-chip.
Il kernel supporta la sistematica esplorazione delle scelte di latenza-memoria-precisione sotto una unificata implementazione.
## Risultati
Testati su modelli Llama-3, CodeGEMM consegna un aumento del 1.83x (8B) e del 8.93x (70B) rispetto ai metodi di codifica convenzionali quantizzati a pari precisione.
Inoltre, questo nuovo kernel migliora la complessità computazionale e l'occupazione della memoria subsystem.
📁 LLM
AI generated
Rivoluzione quantistica nei modelli LLM: CodeGEMM
Vuoi approfondire? Leggi l'articolo completo dalla fonte:
📖 VAI ALLA FONTE ORIGINALE
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!