AutoGen: inference accelerata con Speculative Reasoning Execution

Un ingegnere ha implementato un modulo di Speculative Reasoning Execution (SRE) per AutoGen di Microsoft, riducendo drasticamente la latenza nei flussi di lavoro che utilizzano la tecnica Chain-of-Thought (CoT).

Dettagli dell'implementazione

L'approccio tradizionale prevede un loop sequenziale (Pensa → Attendi → Esegui Tool → Attendi → Parla), inadatto per interazioni in tempo reale. L'SRE, ispirato alla speculative decoding, intercetta tramite regex il flusso di testo generato dall'LLM per predire le chiamate a strumenti esterni. Se viene rilevato un pattern di "tool call" con alta confidenza, lo strumento viene eseguito asincronamente in un thread in background, parallelamente alla generazione del testo di ragionamento da parte dell'LLM.

Benchmark

I test, eseguiti su una NVIDIA A100, hanno mostrato una riduzione del Time-to-Action da 13.4 secondi (sequenziale) a 1.6 secondi (con SRE), corrispondente a un miglioramento dell'85%.

Altre implementazioni

È stato inoltre realizzato un sistema di training distribuito per Whisper su Ray, denominato SpeechLab, con una efficienza di scaling del 94% su 4 GPU A100. SpeechLab gestisce l'ingestione di audio in streaming, evitando problemi di esaurimento della memoria (OOM) su dataset di grandi dimensioni.

AutoGen: inference accelerata con Speculative Reasoning Execution

Dettagli dell'implementazione

Benchmark

Altre implementazioni

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

ConfSpec: Ragionamento Speculativo Efficiente per LLM

MoE-SpAc: inference MoE efficiente su edge eterogeneo

Introducing LogicLens: un nuovo quadro per la ragionevolezza visiva e testuale

👥 Unisciti a 160+ appassionati di AI