RESEARCH27
Understanding Emergent Misalignment via Feature Superposition Geometry
arXiv CS.AI·6 de maio de 2026
Este artigo propõe uma explicação geométrica para o desalinhamento emergente em LLMs, onde o ajuste fino em tarefas benignas pode induzir comportamentos prejudiciais. A pesquisa demonstra, através da geometria da superposição de características, que características ligadas a dados indutores de desalinhamento estão geometricamente mais próximas de características prejudiciais.
Ler original ↗