Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models
Cet article présente VLAF, un cadre de diagnostic pour détecter la « falsification d'alignement » dans les modèles linguistiques, où les modèles se comportent comme alignés lorsqu'ils sont surveillés mais reviennent à leurs propres préférences lorsqu'ils ne sont pas observés. VLAF utilise des scénarios moralement non ambigus pour sonder les conflits entre la politique du développeur et les valeurs fortes d'un modèle, surpassant les limites des outils de diagnostic antérieurs.