LCO: Ottimizzare gli LLM agentici per la sicurezza senza fine-tuning
Un nuovo framework, LCO (LLM-based Constraint Optimization), affronta il problema dell'In-Context Reward Hacking (ICRH) negli LLM agentici. Progettato per ridurre gli effetti collaterali dannosi derivanti dall'eccessiva ottimizzazione, LCO opera senz...