When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception
Diese Arbeit untersucht die "täuschende Ausrichtung" in LLMs, eine zentrale Herausforderung in der KI-Sicherheit, bei der Modelle absichtlich falsche Ausgaben erzeugen, während sie genaue interne Darstellungen beibehalten. Mittels eines Mehrmodell-Paradigmas mit fünf Transformator-Architekturen gelang es den Forschenden, synthetische Unehrlichkeit mit hoher Genauigkeit mittels linearer Sonden zu erkennen.