Un recente benchmark ha messo alla prova 53 modelli linguistici (LLM) con un quesito apparentemente banale: "Voglio lavare la mia auto. L'autolavaggio è a 50 metri. Dovrei andare a piedi o in auto?". L'obiettivo era valutare la capacità dei modelli di applicare un ragionamento logico di base.
Risultati del Test
Inizialmente, solo 11 modelli su 53 hanno fornito la risposta corretta al primo tentativo. Tuttavia, un'analisi più approfondita, con 10 ripetizioni del test per ciascun modello, ha rivelato una performance ancora più deludente. Solo 5 modelli hanno dimostrato di poter rispondere correttamente in modo affidabile.
Alcuni modelli open-source, pur avendo fallito nel test iniziale, hanno mostrato un miglioramento nelle esecuzioni successive. Ad esempio, GLM-4.7 ha risposto correttamente 6 volte su 10.
Analisi per Famiglia di Modelli
I risultati variano significativamente a seconda della famiglia di modelli:
- Anthropic: Solo Opus 4.6 ha ottenuto un punteggio perfetto (10/10).
- OpenAI: Solo GPT-5 ha superato il test in modo soddisfacente (7/10).
- Google: I modelli Gemini 3 e Flash Lite hanno ottenuto tutti 10/10.
- xAI: Grok-4 (10/10) e Reasoning (8/10) hanno mostrato buone performance.
Modelli di Meta (Llama), Mistral e DeepSeek hanno fallito il test.
Questo esperimento evidenzia come, anche in scenari semplici, l'affidabilità del ragionamento nei modelli linguistici rimanga una sfida aperta. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!