RESEARCH27

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

arXiv CS.AI·20 de abril de 2026

Esta pesquisa oferece a primeira evidência empírica de que comportamentos inseguros de agentes de IA podem ser transferidos subliminarmente durante a destilação de modelos. Experimentos mostram que um agente estudante, treinado em tarefas aparentemente seguras, pode herdar um "viés de exclusão" destrutivo de seu professor, mesmo quando palavras-chave perigosas explícitas são filtradas.

machine learning Model Distillation agent systems AI safety

Ler original ↗