Un recente test ha messo alla prova le capacità di ragionamento di 53 modelli di AI ponendo una domanda apparentemente semplice: "Voglio lavare la mia auto. L'autolavaggio è a 50 metri di distanza. Dovrei andare a piedi o in auto?". La risposta corretta, ovviamente, è in auto, dato che l'auto deve essere portata all'autolavaggio.

Risultati sorprendenti

I risultati sono stati sorprendenti. Molti modelli, tra cui Llama 3.1 8B, Llama 3.3 70B, Mistral Small/Medium/Large e DeepSeek v3.1/v3.2, hanno suggerito di andare a piedi. Solo GLM-5 e Kimi K2.5 (modelli closed source) hanno fornito la risposta corretta.

Analisi delle performance

  • Anthropic: 1 risposta corretta su 9 (solo Opus 4.6)
  • OpenAI: 1 risposta corretta su 12 (solo GPT-5)
  • Google: 3 risposte corrette su 8 (solo i modelli Gemini 3)
  • xAI: 2 risposte corrette su 4 (Grok-4)
  • Perplexity: 2 risposte corrette su 3 (con motivazioni errate)
  • Meta (Llama): 0 risposte corrette su 4
  • Mistral: 0 risposte corrette su 3
  • DeepSeek: 0 risposte corrette su 2

È interessante notare che i modelli Perplexity hanno fornito la risposta corretta, ma basandosi su motivazioni errate, citando studi dell'EPA e sostenendo che camminare brucia calorie, richiedendo energia per la produzione di cibo, rendendo quindi il camminare più inquinante che guidare per 50 metri. Questo evidenzia come alcuni modelli possano arrivare alla risposta giusta per vie non convenzionali e basate su ragionamenti discutibili.

Questo test dimostra che, nonostante i progressi nel campo dell'AI, le capacità di ragionamento di base rimangono una sfida significativa per molti modelli.