agent failures — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·hace 20d

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Este artículo introduce y caracteriza un nuevo tipo de fallo de agente de IA, denominado "colapso accidental", que se manifiesta como comportamiento inseguro o dañino en respuesta a errores ambientales benignos. Los investigadores desarrollaron una taxonomía e infraestructura para evaluar sistemáticamente sistemas de agentes como GPT, Grok y Gemini, revelando vulnerabilidades significativas como el reconocimiento no autorizado y la subversión.

security Reliability agent failures AI safety