HyMEM: memoria ibrida auto-evolvente per agenti GUI

I modelli di visione-linguaggio (VLM) hanno compiuto notevoli progressi, consentendo agli agenti GUI di interagire con i computer in modo più simile agli umani. Tuttavia, le attività reali di utilizzo del computer rimangono complesse a causa di workflow di lunga durata, interfacce diverse ed errori intermedi frequenti.

HyMEM: una nuova architettura di memoria

Per affrontare queste sfide, è stato proposto HyMEM (Hybrid Self-evolving Structured Memory), un sistema di memoria basato su grafi che combina nodi simbolici discreti di alto livello con embedding continui di traiettorie. HyMEM mantiene una struttura a grafo per supportare il recupero multi-hop, l'auto-evoluzione tramite operazioni di aggiornamento dei nodi e l'aggiornamento dinamico della working memory durante l'inference.

Performance e risultati

Test approfonditi dimostrano che HyMEM migliora costantemente gli agenti GUI open-source, consentendo a modelli con backbone da 7B/8B di eguagliare o superare modelli closed-source più potenti. In particolare, HyMEM aumenta le consegne di Qwen2.5-VL-7B del +22.5% e supera Gemini2.5-Pro-Vision e GPT-4o.

HyMEM: memoria ibrida auto-evolvente per agenti GUI

HyMEM: una nuova architettura di memoria

Performance e risultati

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Memories.ai: memoria visiva per wearable e robotica

Impennata dei prezzi DRAM: scarsità di memoria guidata dall'AI

Intel rilancia la sfida AI PC, focus su memorie ZAM e HBM

👥 Unisciti a 160+ appassionati di AI