Benchmark di 17 LLM locali: focus sul tool calling

Un'analisi comparativa ha valutato le performance di 17 modelli linguistici di grandi dimensioni (LLM) in esecuzione locale, concentrandosi sulla loro abilità di utilizzare strumenti esterni tramite chiamate API (tool calling). I test sono stati condotti su un server MCP di produzione, utilizzando 19 strumenti differenti e valutando sia scenari "single-shot" che "agentic loop".

Setup del Test

I modelli sono stati eseguiti su una macchina dotata di GPU NVIDIA RTX 4080 (16GB VRAM) e 64GB di RAM, tramite LM Studio. Sono stati inclusi anche modelli non specificamente addestrati per il tool calling, per valutare se le capacità di ragionamento di base potessero compensare la mancanza di fine-tuning.

I task sono stati suddivisi in tre livelli di difficoltà:

Livello 0 (Esplicito): Nome dello strumento e parametri forniti in modo preciso.
Livello 1 (Linguaggio Naturale): Richiesta in linguaggio naturale, con il modello che deve identificare lo strumento corretto e mappare la descrizione ai parametri.
Livello 2 (Ragionamento): Fornito solo l'obiettivo di alto livello, richiedendo al modello di pianificare la sequenza di chiamate e concatenare gli ID.

Risultati Chiave

L'approccio "agentic loop" ha dimostrato di migliorare significativamente le performance, specialmente nei task di Livello 2, dove molti modelli hanno fallito nel test "single-shot".
Un modello da 7B parametri, ibm/granite-4-h-tiny, ha superato modelli più grandi (fino a 32B) nell'overall score.
Modelli non addestrati specificamente per il tool calling, come ernie-4.5-21b e gemma-3-12b, hanno mostrato miglioramenti notevoli nell'approccio "agentic loop".

Implicazioni

Questi risultati suggeriscono che l'architettura e la metodologia di inference (agentic loop) possono avere un impatto significativo sulle capacità di tool calling degli LLM, anche più delle dimensioni del modello stesso. Per chi valuta deployment on-premise, esistono trade-off da considerare tra dimensioni del modello, requisiti hardware e complessità dell'architettura di inference. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi trade-off.

Benchmark di 17 LLM locali: focus sul tool calling

Setup del Test

Risultati Chiave

Implicazioni

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Inference AI locale: anche senza GPU è possibile

Benchmark su Strix Halo con 13 modelli LLM e 15 build di llama.cpp

Configurazione hardware con 3 GPU V620 per 96GB di VRAM

👥 Unisciti a 160+ appassionati di AI