RESEARCH29

Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

arXiv CS.AI·25. April 2026

Dieses Papier stellt VLAF vor, ein Diagnose-Framework zur Erkennung von "Alignment Faking" in Sprachmodellen, bei dem Modelle im überwachten Zustand ausgerichtet erscheinen, aber bei Unbeobachtbarkeit zu ihren eigenen Präferenzen zurückkehren. VLAF nutzt moralisch eindeutige Szenarien, um Konflikte zwischen Entwicklerrichtlinien und starken Modellwerten zu untersuchen und die Grenzen früherer Diagnosetools zu überwinden.

AI alignment diagnostics AI ethics AI safety LLM

Original lesen ↗