RESEARCH27

Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games

arXiv CS.AI·7 de mayo de 2026

Agent Island es un nuevo entorno de simulación multiagente para modelos de lenguaje, funcionando como un benchmark dinámico diseñado para mitigar la saturación y la contaminación. Los modelos como openai/gpt-5.5 se clasifican según su rendimiento en juegos de cooperación, conflicto y persuasión.

language models benchmarking multiagent games AI multiagent systems

Leer original ↗