Inferenza deterministica negli LLM: una sfida

La non riproducibilità nell'inferenza dei modelli linguistici di grandi dimensioni (LLM) è un problema che può compromettere l'affidabilità dei risultati. Anche in condizioni apparentemente deterministiche, variazioni nella dimensione dei batch possono portare a output diversi.

DetLLM: la soluzione open source

Per affrontare questa sfida, uno sviluppatore ha creato DetLLM, uno strumento che misura e dimostra la ripetibilità dell'inferenza a livello di token. DetLLM genera tracce dettagliate e un diff della prima divergenza, creando un pacchetto di riproduzione minimo per ogni esecuzione. Questo pacchetto include uno snapshot dell'ambiente, la configurazione di esecuzione, i controlli applicati, le tracce e un report.

Il codice di DetLLM è disponibile su GitHub (https://github.com/tommasocerruti/detllm) e lo sviluppatore invita la comunità a fornire feedback e a segnalare eventuali prompt, modelli o configurazioni che ancora mostrano divergenze.