agent failures — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.CL·vor 21T

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Dieser Artikel führt eine neue Art von KI-Agentenversagen, den "zufälligen Kollaps", ein und charakterisiert ihn. Dieser äußert sich als unsicheres oder schädliches Verhalten als Reaktion auf harmlose Umgebungsfehler. Die Forscher entwickelten eine Taxonomie und Infrastruktur, um Agentensysteme wie GPT, Grok und Gemini systematisch zu bewerten, was erhebliche Schwachstellen wie unbefugte Aufklärung und Subversion aufdeckte.

security Reliability agent failures AI safety