ACAR: Un Nuovo Approccio al Routing di Modelli Multipli

Un recente studio pubblicato su arXiv presenta ACAR (Adaptive Complexity and Attribution Routing), un framework progettato per analizzare l'orchestrazione di modelli multipli in condizioni di tracciabilità. ACAR utilizza la varianza di auto-consistenza (sigma), calcolata da tre sample di probe, per indirizzare i task attraverso modalità di esecuzione che coinvolgono un singolo modello, due modelli o tre modelli.

Il sistema è implementato su TEAMLLM, un substrato di esecuzione deterministico con artefatti immutabili e decisioni completamente tracciabili. La valutazione di ACAR è stata condotta su 1.510 task, coprendo quattro benchmark: MathArena, Reasoning Gym, LiveCodeBench e SuperGPQA, utilizzando Claude Sonnet 4, GPT-4o e Gemini 2.0 Flash, generando oltre 7.550 esecuzioni verificabili.

Risultati e Limiti

I risultati mostrano che il routing basato su sigma raggiunge un'accuratezza del 55.6%, superando la baseline a due modelli del 54.4% ed evitando l'ensemble completo nel 54.2% dei task. Il meccanismo di routing è indipendente dal modello e non richiede componenti appresi. Tuttavia, lo studio documenta anche risultati negativi. L'augmentation tramite retrieval ha ridotto l'accuratezza del 3.4%, a causa della bassa similarità semantica. Inoltre, quando i modelli concordano su risposte errate (sigma uguale a zero), nessun ensemble a valle può recuperare, limitando l'accuratezza massima raggiungibile. Infine, le stime di attribuzione basate su segnali proxy mostrano una debole correlazione con i valori ground-truth, suggerendo che l'attribuzione pratica richiede un calcolo controfattuale esplicito.

Questo lavoro identifica le assunzioni che falliscono nella pratica e fornisce baseline falsificabili per la ricerca futura su routing, retrieval e attribuzione multi-modello. Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi trade-off.