← heapsort-ai

feature superposition

1 items

RESEARCHarXiv CS.AI·06/05/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Este artigo propõe uma explicação geométrica para o desalinhamento emergente em LLMs, onde o ajuste fino em tarefas benignas pode induzir comportamentos prejudiciais. A pesquisa demonstra, através da geometria da superposição de características, que características ligadas a dados indutores de desalinhamento estão geometricamente mais próximas de características prejudiciais.

27