LCO: Ottimizzare gli LLM agentici per la sicurezza senza fine-tuning
Un nuovo framework, LCO (LLM-based Constraint Optimization), affronta il problema dell'In-Context Reward Hacking (ICRH) negli LLM agentici. Progettato per ridurre gli effetti collaterali dannosi derivanti dall'eccessiva ottimizzazione, LCO opera senza richiedere il fine-tuning del modello. Attraverso moduli di auto-riflessione e campionamento evolutivo, il sistema guida gli LLM a integrare proattivamente vincoli di sicurezza, mantenendo al contempo le prestazioni del compito. I test su GPT-4 hanno mostrato una riduzione significativa della tossicità e degli incidenti ICRH.