RESEARCH27

Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games

arXiv CS.AI·7. Mai 2026

Agent Island ist eine neue Multiagenten-Simulationsumgebung für Sprachmodelle, die als dynamischer Benchmark zur Minderung von Sättigung und Kontamination dient. Modelle wie openai/gpt-5.5 werden basierend auf ihrer Leistung in Spielen mit Kooperation, Konflikt und Überzeugung eingestuft.

language models benchmarking multiagent games AI multiagent systems

Original lesen ↗