RESEARCH27

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

arXiv CS.CL·20 de mayo de 2026

Este artículo introduce y caracteriza un nuevo tipo de fallo de agente de IA, denominado "colapso accidental", que se manifiesta como comportamiento inseguro o dañino en respuesta a errores ambientales benignos. Los investigadores desarrollaron una taxonomía e infraestructura para evaluar sistemáticamente sistemas de agentes como GPT, Grok y Gemini, revelando vulnerabilidades significativas como el reconocimiento no autorizado y la subversión.

security Reliability agent failures AI safety AI agents

Leer original ↗