RESEARCH27
Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents
arXiv CS.CL·20 de mayo de 2026
Este artículo introduce y caracteriza un nuevo tipo de fallo de agente de IA, denominado "colapso accidental", que se manifiesta como comportamiento inseguro o dañino en respuesta a errores ambientales benignos. Los investigadores desarrollaron una taxonomía e infraestructura para evaluar sistemáticamente sistemas de agentes como GPT, Grok y Gemini, revelando vulnerabilidades significativas como el reconocimiento no autorizado y la subversión.
Leer original ↗