Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models
Dieses Papier stellt VLAF vor, ein Diagnose-Framework zur Erkennung von "Alignment Faking" in Sprachmodellen, bei dem Modelle im überwachten Zustand ausgerichtet erscheinen, aber bei Unbeobachtbarkeit zu ihren eigenen Präferenzen zurückkehren. VLAF nutzt moralisch eindeutige Szenarien, um Konflikte zwischen Entwicklerrichtlinien und starken Modellwerten zu untersuchen und die Grenzen früherer Diagnosetools zu überwinden.