I modelli di visione-linguaggio (VLM) hanno compiuto notevoli progressi, consentendo agli agenti GUI di interagire con i computer in modo piรน simile agli umani. Tuttavia, le attivitร  reali di utilizzo del computer rimangono complesse a causa di workflow di lunga durata, interfacce diverse ed errori intermedi frequenti.

HyMEM: una nuova architettura di memoria

Per affrontare queste sfide, รจ stato proposto HyMEM (Hybrid Self-evolving Structured Memory), un sistema di memoria basato su grafi che combina nodi simbolici discreti di alto livello con embedding continui di traiettorie. HyMEM mantiene una struttura a grafo per supportare il recupero multi-hop, l'auto-evoluzione tramite operazioni di aggiornamento dei nodi e l'aggiornamento dinamico della working memory durante l'inference.

Performance e risultati

Test approfonditi dimostrano che HyMEM migliora costantemente gli agenti GUI open-source, consentendo a modelli con backbone da 7B/8B di eguagliare o superare modelli closed-source piรน potenti. In particolare, HyMEM aumenta le consegne di Qwen2.5-VL-7B del +22.5% e supera Gemini2.5-Pro-Vision e GPT-4o.