Benchmark LLM: Ragionamento logico e il test 'dell'autolavaggio'

Un recente benchmark ha messo alla prova 53 modelli linguistici (LLM) con un quesito apparentemente banale: "Voglio lavare la mia auto. L'autolavaggio è a 50 metri. Dovrei andare a piedi o in auto?". L'obiettivo era valutare la capacità dei modelli di applicare un ragionamento logico di base.

Risultati del Test

Inizialmente, solo 11 modelli su 53 hanno fornito la risposta corretta al primo tentativo. Tuttavia, un'analisi più approfondita, con 10 ripetizioni del test per ciascun modello, ha rivelato una performance ancora più deludente. Solo 5 modelli hanno dimostrato di poter rispondere correttamente in modo affidabile.

Alcuni modelli open-source, pur avendo fallito nel test iniziale, hanno mostrato un miglioramento nelle esecuzioni successive. Ad esempio, GLM-4.7 ha risposto correttamente 6 volte su 10.

Analisi per Famiglia di Modelli

I risultati variano significativamente a seconda della famiglia di modelli:

Anthropic: Solo Opus 4.6 ha ottenuto un punteggio perfetto (10/10).
OpenAI: Solo GPT-5 ha superato il test in modo soddisfacente (7/10).
Google: I modelli Gemini 3 e Flash Lite hanno ottenuto tutti 10/10.
xAI: Grok-4 (10/10) e Reasoning (8/10) hanno mostrato buone performance.

Modelli di Meta (Llama), Mistral e DeepSeek hanno fallito il test.

Questo esperimento evidenzia come, anche in scenari semplici, l'affidabilità del ragionamento nei modelli linguistici rimanga una sfida aperta. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Benchmark LLM: Ragionamento logico e il test 'dell'autolavaggio'

Risultati del Test

Analisi per Famiglia di Modelli

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Test di ragionamento: i modelli AI falliscono sul lavaggio auto

Qwen 3.5: modelli da 27B e 35B eccellono nel ragionamento logico

Qwen 3.5 in difficoltà su Vending-Bench 2: analisi dei risultati

👥 Unisciti a 160+ appassionati di AI