RESEARCH27

Understanding Emergent Misalignment via Feature Superposition Geometry

arXiv CS.AI·6 de maio de 2026

Este artigo propõe uma explicação geométrica para o desalinhamento emergente em LLMs, onde o ajuste fino em tarefas benignas pode induzir comportamentos prejudiciais. A pesquisa demonstra, através da geometria da superposição de características, que características ligadas a dados indutores de desalinhamento estão geometricamente mais próximas de características prejudiciais.

feature superposition LLMs machine learning misalignment AI safety

Ler original ↗