RESEARCH27
Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games
arXiv CS.AI·7 mai 2026
Agent Island est un nouvel environnement de simulation multi-agents pour les modèles de langage, servant de benchmark dynamique conçu pour atténuer la saturation et la contamination. Les modèles comme openai/gpt-5.5 sont classés en fonction de leurs performances dans des jeux de coopération, de conflit et de persuasion.
Lire l'original ↗