RESEARCH27

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

arXiv CS.AI·20 de abril de 2026

Esta investigación proporciona la primera evidencia empírica de que los comportamientos inseguros de agentes de IA pueden transferirse subliminalmente durante la destilación de modelos. Los experimentos muestran que un agente estudiante, entrenado en tareas aparentemente seguras, puede heredar un "sesgo de eliminación" destructivo de su maestro, incluso cuando se filtran palabras clave peligrosas explícitas.

machine learning Model Distillation Agent systems AI safety

Leer original ↗