Uno studio del febbraio 2026, condotto da ricercatori di Amazon, Carnegie Mellon, Stanford, UC Berkeley e Oxford, ha evidenziato come le competenze specifiche fornite agli agenti AI possano incrementare significativamente le loro consegne. La ricerca, denominata SkillsBench, ha analizzato sette configurazioni di agenti AI, tra cui Claude Code di Anthropic, Gemini CLI di Google e Codex CLI di OpenAI, valutandone le performance su 84 compiti reali attraverso oltre 7.300 tentativi.

Competenze AI: cosa sono?

Un agente AI è un modello, come Claude o GPT, dotato di accesso a strumenti e software che gli consentono di eseguire compiti in autonomia, passo dopo passo, anziché limitarsi a rispondere a domande. Questi agenti sono sempre più utilizzati per gestire attività complesse in vari settori, dall'analisi di report finanziari all'elaborazione di dati medici e alla gestione della cybersecurity.

Le competenze AI colmano il divario tra le capacità generali degli agenti e le conoscenze specialistiche necessarie per compiti specifici. Ogni competenza è un documento strutturato che fornisce istruzioni, esempi di codice e materiale di riferimento per affrontare un particolare tipo di compito in un determinato settore. Non è necessario un ulteriore training: l'agente legge la competenza e la applica.

Risultati dello studio

Lo studio ha rilevato che fornire agli agenti competenze scritte da esperti ha migliorato il loro tasso di successo medio del 16,2%. In particolare, i compiti relativi al settore sanitario hanno registrato un miglioramento del 51,9%, quelli manifatturieri del 41,9%, la cybersecurity del 23,2% e il settore energetico del 17,9%.

Un esempio significativo riguarda l'analisi del rischio di inondazioni: gli agenti che operavano senza guida hanno raggiunto un tasso di successo del solo 2,9%. Quando è stata fornita loro una competenza che specificava la corretta metodologia statistica, il tasso di successo è salito all'80%.

Modelli più piccoli vs. modelli più grandi

Un altro risultato importante dello studio riguarda l'impatto delle competenze sui costi. Claude Haiku 4.5 di Anthropic, il modello più piccolo ed economico testato, ha raggiunto un tasso di successo del 27,7% con competenze curate, superando il 22% di Claude Opus 4.5, un modello significativamente più costoso, che operava senza competenze. Questo suggerisce che un modello più piccolo, ben istruito, può superare un modello più grande lasciato a sé stesso.

Focalizzazione delle competenze

Lo studio ha anche evidenziato che le consegne migliori si ottengono con due o tre moduli di competenza focalizzati, che migliorano i tassi di successo in media del 18,6%. Competenze eccessivamente lunghe possono consumare risorse senza fornire una guida efficace.

Expertise umana

Gli agenti che hanno generato autonomamente le proprie competenze hanno ottenuto risultati inferiori rispetto a quelli che non ne avevano affatto, sottolineando l'importanza dell'expertise umana nella creazione di competenze efficaci. Le competenze efficaci richiedono conoscenze specialistiche curate da esperti umani, che i modelli non sono in grado di generare autonomamente in modo affidabile.