Un'analisi comparativa ha valutato le performance di 17 modelli linguistici di grandi dimensioni (LLM) in esecuzione locale, concentrandosi sulla loro abilità di utilizzare strumenti esterni tramite chiamate API (tool calling). I test sono stati condotti su un server MCP di produzione, utilizzando 19 strumenti differenti e valutando sia scenari "single-shot" che "agentic loop".
Setup del Test
I modelli sono stati eseguiti su una macchina dotata di GPU NVIDIA RTX 4080 (16GB VRAM) e 64GB di RAM, tramite LM Studio. Sono stati inclusi anche modelli non specificamente addestrati per il tool calling, per valutare se le capacità di ragionamento di base potessero compensare la mancanza di fine-tuning.
I task sono stati suddivisi in tre livelli di difficoltà:
- Livello 0 (Esplicito): Nome dello strumento e parametri forniti in modo preciso.
- Livello 1 (Linguaggio Naturale): Richiesta in linguaggio naturale, con il modello che deve identificare lo strumento corretto e mappare la descrizione ai parametri.
- Livello 2 (Ragionamento): Fornito solo l'obiettivo di alto livello, richiedendo al modello di pianificare la sequenza di chiamate e concatenare gli ID.
Risultati Chiave
- L'approccio "agentic loop" ha dimostrato di migliorare significativamente le performance, specialmente nei task di Livello 2, dove molti modelli hanno fallito nel test "single-shot".
- Un modello da 7B parametri,
ibm/granite-4-h-tiny, ha superato modelli più grandi (fino a 32B) nell'overall score. - Modelli non addestrati specificamente per il tool calling, come
ernie-4.5-21begemma-3-12b, hanno mostrato miglioramenti notevoli nell'approccio "agentic loop".
Implicazioni
Questi risultati suggeriscono che l'architettura e la metodologia di inference (agentic loop) possono avere un impatto significativo sulle capacità di tool calling degli LLM, anche più delle dimensioni del modello stesso. Per chi valuta deployment on-premise, esistono trade-off da considerare tra dimensioni del modello, requisiti hardware e complessità dell'architettura di inference. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi trade-off.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!