Un utente ha condiviso su Reddit i risultati di un benchmark chiamato MineBench, focalizzato sul ragionamento spaziale, che confronta le prestazioni di Qwen 3 Max-Thinking e Qwen 3.5.
Risultati del Benchmark
I risultati indicano un notevole miglioramento da parte di Qwen 3 Max-Thinking. Secondo l'autore del benchmark, alcune build di Qwen 3.5 si sono dimostrate competitive con modelli di fascia alta come Opus 4.6, GPT-5.2 e Gemini 3 Pro.
MineBench
MineBench è un benchmark creato per valutare le capacità di ragionamento spaziale dei modelli linguistici. Il codice sorgente e ulteriori dettagli sul benchmark sono disponibili su GitHub.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!