RESEARCH27

Understanding Emergent Misalignment via Feature Superposition Geometry

arXiv CS.AI·6 de mayo de 2026

Este artículo propone una explicación geométrica basada en la superposición de características para el desalineamiento emergente en LLMs, donde el ajuste fino en tareas benignas puede inducir comportamientos dañinos. Demuestra que las características ligadas a datos que inducen el desalineamiento están geométricamente más cerca de las características dañinas que aquellas de datos no inductores.

feature superposition LLMs machine learning misalignment AI safety

Leer original ↗