Ghost Engine: Inferenza LLM efficiente

Un ingegnere ha sviluppato Ghost Engine, un motore di inferenza che punta a ottimizzare l'esecuzione locale di modelli linguistici di grandi dimensioni (LLM) come Llama-3-8B. L'idea chiave รจ generare i pesi del modello in tempo reale, anzichรฉ caricarli dalla memoria, riducendo cosรฌ i requisiti di VRAM.

Come funziona

Ghost Engine utilizza un'architettura "Predatore-Preda". I "Predatori" sono i valori anomali ad alta precisione (circa l'1% dei pesi). Le "Prede" sono istruzioni ternarie {-1, 0, 1} che ricostruiscono il resto dei pesi.

Risultati

I test su Llama-3-8B mostrano:

  • Compressione: ~3.0 bit per weight (bpw), 5.33 volte inferiore a FP16.
  • Fedeltร : 0.915 Cosine Similarity sul Layer 20 (SwiGLU).
  • Qualitร  dell'output: 0.912 similarity sugli output di inferenza.
  • Gestione corretta dell'architettura SwiGLU.

Il codice รจ open source (AGPLv3) e disponibile su GitHub. Il progetto รจ in fase di anteprima e si cercano collaboratori per ottimizzare i kernel di decompressione per Metal/CUDA al fine di ottenere velocitร  di produzione.