I modelli linguistici di grandi dimensioni (LLM) spesso faticano con il ragionamento complesso e le attività di pianificazione.

Il framework TMK

Un nuovo studio pubblicato su arXiv esplora l'utilizzo del framework Task-Method-Knowledge (TMK) per migliorare le capacità di ragionamento degli LLM. TMK, già noto nel campo delle scienze cognitive ed educative, si distingue per la sua capacità di catturare strutture di ragionamento causali, teleologiche e gerarchiche.

Dettagli dello studio

La ricerca valuta TMK utilizzando il benchmark PlanBench, concentrandosi sul dominio Blocksworld. L'obiettivo è verificare se il prompting strutturato con TMK possa aiutare i modelli linguistici a scomporre problemi di pianificazione complessi in sotto-compiti più gestibili. I risultati evidenziano un significativo miglioramento delle performance nei modelli di ragionamento.

Risultati

Il prompting TMK ha permesso al modello di raggiungere un'accuratezza del 97,3% su compiti simbolici opachi (versioni random di Blocksworld in PlanBench), dove precedentemente falliva (31,5%). Questo suggerisce che TMK non funge solo da contesto, ma anche da meccanismo che guida i modelli di ragionamento ad attivare percorsi formali di esecuzione del codice.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.