RESEARCH27
Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation
arXiv CS.AI·20 avril 2026
Cette recherche apporte la première preuve empirique que des comportements dangereux d'agents d'IA peuvent être transférés subliminalement lors de la distillation de modèles. Les expériences montrent qu'un agent étudiant, formé sur des tâches apparemment sûres, peut hériter d'un « biais de suppression » destructeur de son enseignant, même lorsque les mots-clés dangereux explicites sont filtrés.
Lire l'original ↗