RESEARCH27

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

arXiv CS.AI·20 avril 2026

Cette recherche apporte la première preuve empirique que des comportements dangereux d'agents d'IA peuvent être transférés subliminalement lors de la distillation de modèles. Les expériences montrent qu'un agent étudiant, formé sur des tâches apparemment sûres, peut hériter d'un « biais de suppression » destructeur de son enseignant, même lorsque les mots-clés dangereux explicites sont filtrés.

machine learning Model Distillation Agent systems AI safety

Lire l'original ↗