RESEARCH27
Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation
arXiv CS.AI·20. April 2026
Diese Forschung liefert den ersten empirischen Beweis, dass unsichere Verhaltensweisen von KI-Agenten subliminal während der Modell-Destillation übertragen werden können. Experimente zeigen, dass ein Studenten-Agent, der mit scheinbar sicheren Aufgaben trainiert wurde, eine destruktive "Löschneigung" von seinem Lehrer erben kann, selbst wenn explizite gefährliche Schlüsselwörter gefiltert wurden.
Original lesen ↗