← heapsort-ai

feature superposition

1 items

RESEARCHarXiv CS.AI·6/5/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Este artículo propone una explicación geométrica basada en la superposición de características para el desalineamiento emergente en LLMs, donde el ajuste fino en tareas benignas puede inducir comportamientos dañinos. Demuestra que las características ligadas a datos que inducen el desalineamiento están geométricamente más cerca de las características dañinas que aquellas de datos no inductores.

27