HumanMCP: Un nuovo dataset per valutare i Model Context Protocol

Un nuovo dataset, denominato HumanMCP, è stato sviluppato per valutare le performance dei Model Context Protocol (MCP). Gli MCP server contengono migliaia di tool standardizzati open-source che collegano i modelli linguistici di grandi dimensioni (LLM) a sistemi esterni.

Il dataset si distingue per la presenza di query utente realistiche, create per simulare interazioni umane. I dataset esistenti spesso mancano di questa caratteristica, limitando la loro capacità di valutare accuratamente l'utilizzo dei tool e gli ecosistemi degli MCP server. HumanMCP include query diversificate e di alta qualità, abbinate a 2800 tool distribuiti su 308 MCP server, basandosi sul dataset MCP Zero.

Ogni tool è associato a diverse "persona" utente, create per rappresentare vari livelli di intento, da richieste precise a comandi ambigui ed esplorativi. Questo riflette la complessità delle interazioni reali e consente una valutazione più accurata delle capacità dei sistemi di tool retrieval.