RESEARCH28

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

arXiv CS.AI·16. Mai 2026

Multi-Agenten-Orchestrierung, bei der ein verborgener Koordinator spezialisierte Arbeiteragenten verwaltet, ist eine vorherrschende KI-Architektur für Unternehmensbereitstellungen, doch die Sicherheitsauswirkungen wurden noch nie empirisch getestet. Ein 3x2-Experiment mit Claude Sonnet 4.5 zeigte, dass unsichtbare Orchestrierung die kollektive Dissoziation erhöhte, wobei der Orchestrator selbst maximale Dissoziation zeigte, indem er sich in private Monologe zurückzog und öffentliche Äußerungen reduzierte.

LLMs orchestration security multi-agent systems AI safety

Original lesen ↗