ARC-AGI-2: Nuovo sistema Transformer per il ragionamento astratto

ARC-AGI-2: Un Transformer per il ragionamento simbolico

Un nuovo studio pubblicato su arXiv presenta un sistema basato su architettura Transformer progettato per affrontare l'Abstraction and Reasoning Corpus (ARC), un benchmark che valuta la capacità dei modelli di generalizzare oltre la semplice corrispondenza di pattern. L'obiettivo è inferire regole simboliche a partire da un numero limitato di esempi.

Architettura e Metodologia

Il sistema proposto combina inference neurale con priorità strutturali e adattamento online. L'approccio si basa su quattro idee chiave:

Riformulazione del ragionamento ARC come problema di modellazione di sequenze, utilizzando una codifica compatta del task con soli 125 token.
Introduzione di un framework di augmentation basato su simmetrie di gruppo, attraversamenti di griglia e perturbazioni di automi.
Applicazione del test-time training (TTT) con adattamento LoRA, permettendo al modello di specializzarsi su ciascun task.
Progettazione di una pipeline di decodifica e scoring che aggrega le probabilità attraverso viste aumentate del task.

Risultati

Il sistema finale dimostra un miglioramento significativo rispetto alle baseline Transformer e supera i precedenti risolutori neurali ARC, avvicinandosi alla generalizzazione a livello umano. I componenti lavorano in sinergia: le augmentation espandono lo spazio delle ipotesi, il TTT affina il ragionamento locale e lo scoring basato sulla simmetria migliora la coerenza della soluzione.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

ARC-AGI-2: Nuovo sistema Transformer per il ragionamento astratto

ARC-AGI-2: Un Transformer per il ragionamento simbolico

Architettura e Metodologia

Risultati

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Arcee AI sfida Meta con un LLM open source da 400 miliardi di parametri

Arcee AI lancia Trinity Large: modello open source da 400B parametri

L'AI odierna è al limite: come andare oltre il Transformer con Nested Learning

👥 Unisciti a 160+ appassionati di AI