RESEARCH27
Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games
arXiv CS.AI·7. Mai 2026
Agent Island ist eine neue Multiagenten-Simulationsumgebung für Sprachmodelle, die als dynamischer Benchmark zur Minderung von Sättigung und Kontamination dient. Modelle wie openai/gpt-5.5 werden basierend auf ihrer Leistung in Spielen mit Kooperation, Konflikt und Überzeugung eingestuft.
Original lesen ↗