Ghost Engine: Inferenza LLM efficiente
Un ingegnere ha sviluppato Ghost Engine, un motore di inferenza che punta a ottimizzare l'esecuzione locale di modelli linguistici di grandi dimensioni (LLM) come Llama-3-8B. L'idea chiave è generare i pesi del modello in tempo reale, anziché caricarli dalla memoria, riducendo così i requisiti di VRAM.
Come funziona
Ghost Engine utilizza un'architettura "Predatore-Preda". I "Predatori" sono i valori anomali ad alta precisione (circa l'1% dei pesi). Le "Prede" sono istruzioni ternarie {-1, 0, 1} che ricostruiscono il resto dei pesi.
Risultati
I test su Llama-3-8B mostrano:
- Compressione: ~3.0 bit per weight (bpw), 5.33 volte inferiore a FP16.
- Fedeltà: 0.915 Cosine Similarity sul Layer 20 (SwiGLU).
- Qualità dell'output: 0.912 similarity sugli output di inferenza.
- Gestione corretta dell'architettura SwiGLU.
Il codice è open source (AGPLv3) e disponibile su GitHub. Il progetto è in fase di anteprima e si cercano collaboratori per ottimizzare i kernel di decompressione per Metal/CUDA al fine di ottenere velocità di produzione.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!