MASEval è un nuovo framework progettato per la valutazione completa di sistemi multi-agente basati su modelli linguistici di grandi dimensioni (LLM). A differenza dei benchmark esistenti, che si concentrano principalmente sulle capacità dei modelli, MASEval considera l'intero sistema come unità di analisi, includendo topologia, logica di orchestrazione e gestione degli errori.

Valutazione a livello di sistema

Il framework si propone di colmare una lacuna significativa nell'attuale panorama degli strumenti di valutazione, dove le decisioni di implementazione a livello di sistema possono influenzare notevolmente le performance. MASEval permette di confrontare sistematicamente diversi framework (come smolagents, LangGraph e AutoGen) su vari benchmark e modelli, evidenziando come la scelta del framework possa avere un impatto paragonabile a quello del modello stesso.

Flessibilità e licenza

MASEval è distribuito con licenza MIT ed è disponibile su GitHub, offrendo ai ricercatori e agli sviluppatori uno strumento flessibile per esplorare e migliorare i sistemi multi-agente. Questo approccio olistico consente di identificare le implementazioni più adatte a specifici casi d'uso e di sviluppare sistemi più efficienti e performanti.