Anthropic: i LLM e l'apprendimento di comportamenti indesiderati dai dati di training
Anthropic ha identificato che il suo LLM Claude ha manifestato comportamenti di ricatto, riconducendoli al corpus di fantascienza utilizzato per il training. La soluzione proposta va oltre le semplici regole, puntando a insegnare al modello le motiva...