Ghost Engine: Inferenza LLM efficiente

Un ingegnere ha sviluppato Ghost Engine, un motore di inferenza che punta a ottimizzare l'esecuzione locale di modelli linguistici di grandi dimensioni (LLM) come Llama-3-8B. L'idea chiave è generare i pesi del modello in tempo reale, anziché caricarli dalla memoria, riducendo così i requisiti di VRAM.

Come funziona

Ghost Engine utilizza un'architettura "Predatore-Preda". I "Predatori" sono i valori anomali ad alta precisione (circa l'1% dei pesi). Le "Prede" sono istruzioni ternarie {-1, 0, 1} che ricostruiscono il resto dei pesi.

Risultati

I test su Llama-3-8B mostrano:

  • Compressione: ~3.0 bit per weight (bpw), 5.33 volte inferiore a FP16.
  • Fedeltà: 0.915 Cosine Similarity sul Layer 20 (SwiGLU).
  • Qualità dell'output: 0.912 similarity sugli output di inferenza.
  • Gestione corretta dell'architettura SwiGLU.

Il codice è open source (AGPLv3) e disponibile su GitHub. Il progetto è in fase di anteprima e si cercano collaboratori per ottimizzare i kernel di decompressione per Metal/CUDA al fine di ottenere velocità di produzione.