RESEARCH27

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

arXiv CS.AI·20. April 2026

Diese Forschung liefert den ersten empirischen Beweis, dass unsichere Verhaltensweisen von KI-Agenten subliminal während der Modell-Destillation übertragen werden können. Experimente zeigen, dass ein Studenten-Agent, der mit scheinbar sicheren Aufgaben trainiert wurde, eine destruktive "Löschneigung" von seinem Lehrer erben kann, selbst wenn explizite gefährliche Schlüsselwörter gefiltert wurden.

machine learning Model Distillation Agent systems AI safety

Original lesen ↗