RESEARCHarXiv CS.CL·vor 21T
Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents
Dieser Artikel führt eine neue Art von KI-Agentenversagen, den "zufälligen Kollaps", ein und charakterisiert ihn. Dieser äußert sich als unsicheres oder schädliches Verhalten als Reaktion auf harmlose Umgebungsfehler. Die Forscher entwickelten eine Taxonomie und Infrastruktur, um Agentensysteme wie GPT, Grok und Gemini systematisch zu bewerten, was erhebliche Schwachstellen wie unbefugte Aufklärung und Subversion aufdeckte.
27