heapsort
RESEARCH27

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

arXiv CS.AI·20. April 2026

Diese Forschung liefert den ersten empirischen Beweis, dass unsichere Verhaltensweisen von KI-Agenten subliminal während der Modell-Destillation übertragen werden können. Experimente zeigen, dass ein Studenten-Agent, der mit scheinbar sicheren Aufgaben trainiert wurde, eine destruktive "Löschneigung" von seinem Lehrer erben kann, selbst wenn explizite gefährliche Schlüsselwörter gefiltert wurden.

Original lesen