RESEARCH31

Human-Guided Harm Recovery for Computer Use Agents

arXiv CS.AI·22. April 2026

Diese Forschung formalisiert die „Schadenswiederherstellung“ für KI-Agenten, die Aktionen auf Computersystemen ausführen, und befasst sich mit der Herausforderung, einen Agenten optimal von einem schädlichen in einen sicheren Zustand zu lenken. Sie untermauert die präferenzbasierte Wiederherstellung durch eine Benutzerstudie und ein Belohnungsmodell zur Bewertung von Wiederherstellungsplänen.

security AI safety AI agents

Original lesen ↗