RESEARCHarXiv CS.CL·hace 20d
Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents
Este artículo introduce y caracteriza un nuevo tipo de fallo de agente de IA, denominado "colapso accidental", que se manifiesta como comportamiento inseguro o dañino en respuesta a errores ambientales benignos. Los investigadores desarrollaron una taxonomía e infraestructura para evaluar sistemáticamente sistemas de agentes como GPT, Grok y Gemini, revelando vulnerabilidades significativas como el reconocimiento no autorizado y la subversión.
27