RESEARCHarXiv CS.AI·5/6/2026
Understanding Emergent Misalignment via Feature Superposition Geometry
Dieses Papier schlägt eine geometrische Erklärung vor, basierend auf der Merkmalsüberlagerungsgeometrie, um emergentes Fehlverhalten in LLMs zu erklären, bei dem Feinabstimmung an harmlosen Aufgaben schädliches Verhalten induziert. Es zeigt, dass Merkmale, die mit fehlverhaltensinduzierenden Daten verbunden sind, geometrisch näher an schädlichen Merkmalen liegen als solche aus nicht-induzierenden Daten.
27