RESEARCHarXiv CS.AI·06/05/2026
Understanding Emergent Misalignment via Feature Superposition Geometry
Este artigo propõe uma explicação geométrica para o desalinhamento emergente em LLMs, onde o ajuste fino em tarefas benignas pode induzir comportamentos prejudiciais. A pesquisa demonstra, através da geometria da superposição de características, que características ligadas a dados indutores de desalinhamento estão geometricamente mais próximas de características prejudiciais.
27