Un ingegnere ha implementato un modulo di Speculative Reasoning Execution (SRE) per AutoGen di Microsoft, riducendo drasticamente la latenza nei flussi di lavoro che utilizzano la tecnica Chain-of-Thought (CoT).

Dettagli dell'implementazione

L'approccio tradizionale prevede un loop sequenziale (Pensa โ†’ Attendi โ†’ Esegui Tool โ†’ Attendi โ†’ Parla), inadatto per interazioni in tempo reale. L'SRE, ispirato alla speculative decoding, intercetta tramite regex il flusso di testo generato dall'LLM per predire le chiamate a strumenti esterni. Se viene rilevato un pattern di "tool call" con alta confidenza, lo strumento viene eseguito asincronamente in un thread in background, parallelamente alla generazione del testo di ragionamento da parte dell'LLM.

Benchmark

I test, eseguiti su una NVIDIA A100, hanno mostrato una riduzione del Time-to-Action da 13.4 secondi (sequenziale) a 1.6 secondi (con SRE), corrispondente a un miglioramento dell'85%.

Altre implementazioni

รˆ stato inoltre realizzato un sistema di training distribuito per Whisper su Ray, denominato SpeechLab, con una efficienza di scaling del 94% su 4 GPU A100. SpeechLab gestisce l'ingestione di audio in streaming, evitando problemi di esaurimento della memoria (OOM) su dataset di grandi dimensioni.