RESEARCHarXiv CS.AI·07/05/2026
Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games
Agent Island é um novo ambiente de simulação multiagente para modelos de linguagem, atuando como um benchmark dinâmico projetado para mitigar a saturação e a contaminação. Modelos como openai/gpt-5.5 são classificados com base em seu desempenho em jogos de cooperação, conflito e persuasão.
27