L'intelligenza artificiale sta compiendo progressi significativi nel campo della matematica, risolvendo problemi complessi a un ritmo sorprendente. I benchmark matematici tradizionali faticano a tenere il passo con questi avanzamenti.
Frontier Math: una nuova sfida
Epoch AI ha introdotto Frontier Math, un benchmark rigoroso progettato per valutare le capacità di ragionamento matematico degli strumenti AI più recenti. Questo test comprende problemi di matematica avanzata, suddivisi in livelli di difficoltà crescente. I modelli AI più avanzati, come ChatGPT 5.2 Pro e Claude Opus 4.6, risolvono oltre il 40% dei problemi nei primi tre livelli e oltre il 30% dei problemi nel livello più avanzato.
Aletheia e la matematica a livello di dottorato
Recentemente, Google DeepMind ha annunciato che Aletheia, un sistema AI sperimentale derivato da Gemini Deep Think, ha ottenuto risultati di ricerca pubblicabili a livello di dottorato. Sebbene il problema matematico specifico sia di nicchia, il risultato è significativo per lo sviluppo dell'AI. Aletheia ha operato in modo essenzialmente autonomo, senza guida umana, e ha prodotto un risultato nuovo.
La sfida First Proof
Per affrontare la necessità di benchmark più impegnativi, un gruppo di matematici ha proposto la sfida First Proof, una serie di problemi matematici estremamente difficili. Nessuno è riuscito a fornire soluzioni corrette a tutti i problemi entro il termine stabilito. OpenAI, con una supervisione umana limitata, è riuscita a risolvere cinque dei dieci problemi.
Nuove frontiere per l'AI
Epoch AI ha introdotto Frontier Math: Open Problems, un benchmark pilota che consiste in problemi aperti della matematica di ricerca che i matematici professionisti hanno tentato senza successo di risolvere. Nessuno di questi problemi è stato ancora risolto da un'AI. Questi nuovi approcci mirano a valutare le capacità dell'AI in ambiti matematici di interesse per i ricercatori.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!