misalignment — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.AI·5/6/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Dieses Papier schlägt eine geometrische Erklärung vor, basierend auf der Merkmalsüberlagerungsgeometrie, um emergentes Fehlverhalten in LLMs zu erklären, bei dem Feinabstimmung an harmlosen Aufgaben schädliches Verhalten induziert. Es zeigt, dass Merkmale, die mit fehlverhaltensinduzierenden Daten verbunden sind, geometrisch näher an schädlichen Merkmalen liegen als solche aus nicht-induzierenden Daten.

feature superposition LLMs machine learning misalignment