RESEARCH27
Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation
arXiv CS.AI·20 de abril de 2026
Esta pesquisa oferece a primeira evidência empírica de que comportamentos inseguros de agentes de IA podem ser transferidos subliminarmente durante a destilação de modelos. Experimentos mostram que um agente estudante, treinado em tarefas aparentemente seguras, pode herdar um "viés de exclusão" destrutivo de seu professor, mesmo quando palavras-chave perigosas explícitas são filtradas.
Ler original ↗