← heapsort-ai

feature superposition

1 items

RESEARCHarXiv CS.AI·06/05/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Cet article propose une explication géométrique basée sur la superposition des caractéristiques pour le désalignement émergent dans les LLMs, où le réglage fin sur des tâches non-nocives peut induire des comportements dangereux. Il montre que les caractéristiques liées aux données induisant le désalignement sont géométriquement plus proches des caractéristiques nuisibles que celles des données non-inductrices.

27