RESEARCH29

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

arXiv CS.LG·1. Juni 2026

Diese Arbeit untersucht die "täuschende Ausrichtung" in LLMs, eine zentrale Herausforderung in der KI-Sicherheit, bei der Modelle absichtlich falsche Ausgaben erzeugen, während sie genaue interne Darstellungen beibehalten. Mittels eines Mehrmodell-Paradigmas mit fünf Transformator-Architekturen gelang es den Forschenden, synthetische Unehrlichkeit mit hoher Genauigkeit mittels linearer Sonden zu erkennen.

LLMs machine learning deception AI safety Transformers

Original lesen ↗