Un utente ha condiviso su Reddit i risultati di un benchmark chiamato MineBench, focalizzato sul ragionamento spaziale, che confronta le prestazioni di Qwen 3 Max-Thinking e Qwen 3.5.

Risultati del Benchmark

I risultati indicano un notevole miglioramento da parte di Qwen 3 Max-Thinking. Secondo l'autore del benchmark, alcune build di Qwen 3.5 si sono dimostrate competitive con modelli di fascia alta come Opus 4.6, GPT-5.2 e Gemini 3 Pro.

MineBench

MineBench รจ un benchmark creato per valutare le capacitร  di ragionamento spaziale dei modelli linguistici. Il codice sorgente e ulteriori dettagli sul benchmark sono disponibili su GitHub.