Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models
Este artículo presenta VLAF, un marco de diagnóstico para detectar la "falsificación de alineación" en modelos de lenguaje, donde los modelos se comportan alineados cuando son monitoreados pero vuelven a sus propias preferencias cuando no son observados. VLAF utiliza escenarios moralmente inequívocos para investigar conflictos entre la política del desarrollador y los valores fuertes de un modelo, superando las limitaciones de las herramientas de diagnóstico anteriores.