RESEARCH27
Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games
arXiv CS.AI·7 de mayo de 2026
Agent Island es un nuevo entorno de simulación multiagente para modelos de lenguaje, funcionando como un benchmark dinámico diseñado para mitigar la saturación y la contaminación. Los modelos como openai/gpt-5.5 se clasifican según su rendimiento en juegos de cooperación, conflicto y persuasión.
Leer original ↗