RESEARCH27

Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games

arXiv CS.AI·7 mai 2026

Agent Island est un nouvel environnement de simulation multi-agents pour les modèles de langage, servant de benchmark dynamique conçu pour atténuer la saturation et la contamination. Les modèles comme openai/gpt-5.5 sont classés en fonction de leurs performances dans des jeux de coopération, de conflit et de persuasion.

language models Benchmarking multiagent games AI multiagent systems

Lire l'original ↗