Inferenza LLM ad alta efficienza con AMD MI50

Una nuova configurazione hardware basata su otto GPU AMD MI50 da 32GB ciascuna promette di rivoluzionare l'inferenza di modelli linguistici di grandi dimensioni (LLM) in locale, offrendo un ottimo rapporto tra prestazioni e costo.

I test eseguiti con la libreria vllm-gfx906 mostrano risultati impressionanti:

  • MiniMax-M2.1 (AWQ 4bit): 26.8 token/s in output, 3000 token/s in input (con un contesto di 30.000 token) e una lunghezza massima del contesto di 196.608 token.
  • GLM 4.7 (AWQ 4bit): 15.6 token/s in output, 3000 token/s in input (con un contesto di 30.000 token) e una lunghezza del contesto di 95.000 token.

Il costo stimato per le GPU รจ di 880 dollari (prezzi previsti per inizio 2025), mentre il consumo energetico si attesta sui 280W in idle e 1200W durante l'inferenza.

L'obiettivo del progetto รจ fornire una soluzione economicamente vantaggiosa per l'inferenza locale, sfruttando la potenza di calcolo delle GPU AMD e l'efficienza della libreria vllm-gfx906. I dettagli completi della configurazione sono disponibili su GitHub.

Il panorama dell'inferenza LLM

L'inferenza di modelli linguistici di grandi dimensioni รจ un campo in rapida evoluzione, con una crescente domanda di soluzioni efficienti e accessibili. Le GPU rappresentano una delle opzioni piรน popolari per accelerare questo processo, e l'ottimizzazione del software, come dimostrato dall'uso di vllm-gfx906, gioca un ruolo cruciale nel massimizzare le prestazioni.