Ghost Engine: Inferenza LLM efficiente
Un ingegnere ha sviluppato Ghost Engine, un motore di inferenza che punta a ottimizzare l'esecuzione locale di modelli linguistici di grandi dimensioni (LLM) come Llama-3-8B. L'idea chiave รจ generare i pesi del modello in tempo reale, anzichรฉ caricarli dalla memoria, riducendo cosรฌ i requisiti di VRAM.
Come funziona
Ghost Engine utilizza un'architettura "Predatore-Preda". I "Predatori" sono i valori anomali ad alta precisione (circa l'1% dei pesi). Le "Prede" sono istruzioni ternarie {-1, 0, 1} che ricostruiscono il resto dei pesi.
Risultati
I test su Llama-3-8B mostrano:
- Compressione: ~3.0 bit per weight (bpw), 5.33 volte inferiore a FP16.
- Fedeltร : 0.915 Cosine Similarity sul Layer 20 (SwiGLU).
- Qualitร dell'output: 0.912 similarity sugli output di inferenza.
- Gestione corretta dell'architettura SwiGLU.
Il codice รจ open source (AGPLv3) e disponibile su GitHub. Il progetto รจ in fase di anteprima e si cercano collaboratori per ottimizzare i kernel di decompressione per Metal/CUDA al fine di ottenere velocitร di produzione.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!