RESEARCH27
Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation
arXiv CS.AI·20 de abril de 2026
Esta investigación proporciona la primera evidencia empírica de que los comportamientos inseguros de agentes de IA pueden transferirse subliminalmente durante la destilación de modelos. Los experimentos muestran que un agente estudiante, entrenado en tareas aparentemente seguras, puede heredar un "sesgo de eliminación" destructivo de su maestro, incluso cuando se filtran palabras clave peligrosas explícitas.
Leer original ↗