RESEARCH31

Human-Guided Harm Recovery for Computer Use Agents

arXiv CS.AI·22 de abril de 2026

Esta investigación formaliza la "recuperación de daños" para agentes de IA que ejecutan acciones en sistemas informáticos, abordando el desafío de guiar óptimamente un agente de un estado dañino a uno seguro. Fundamenta la recuperación alineada con preferencias mediante un estudio de usuario y un modelo de recompensa para evaluar planes de recuperación.

security AI safety AI agents

Leer original ↗