Ghost Engine: Llama-3-8B in soli 3GB di VRAM grazie alla generazione dinamica

Ghost Engine: Inferenza LLM efficiente

Un ingegnere ha sviluppato Ghost Engine, un motore di inferenza che punta a ottimizzare l'esecuzione locale di modelli linguistici di grandi dimensioni (LLM) come Llama-3-8B. L'idea chiave è generare i pesi del modello in tempo reale, anziché caricarli dalla memoria, riducendo così i requisiti di VRAM.

Come funziona

Ghost Engine utilizza un'architettura "Predatore-Preda". I "Predatori" sono i valori anomali ad alta precisione (circa l'1% dei pesi). Le "Prede" sono istruzioni ternarie {-1, 0, 1} che ricostruiscono il resto dei pesi.

Risultati

I test su Llama-3-8B mostrano:

Compressione: ~3.0 bit per weight (bpw), 5.33 volte inferiore a FP16.
Fedeltà: 0.915 Cosine Similarity sul Layer 20 (SwiGLU).
Qualità dell'output: 0.912 similarity sugli output di inferenza.
Gestione corretta dell'architettura SwiGLU.

Il codice è open source (AGPLv3) e disponibile su GitHub. Il progetto è in fase di anteprima e si cercano collaboratori per ottimizzare i kernel di decompressione per Metal/CUDA al fine di ottenere velocità di produzione.

Ghost Engine: Llama-3-8B in soli 3GB di VRAM grazie alla generazione dinamica

Ghost Engine: Inferenza LLM efficiente

Come funziona

Risultati

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Strutture latenti gerarchiche: un modello unificato per i LLM

LLM in locale: prestazioni in crescita con hardware compatto

Benchmark di LLM: Qwen MoE supera LLaMA-70B in neuroscienze

👥 Unisciti a 160+ appassionati di AI