RESEARCH27
Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games
arXiv CS.AI·7 de maio de 2026
Agent Island é um novo ambiente de simulação multiagente para modelos de linguagem, atuando como um benchmark dinâmico projetado para mitigar a saturação e a contaminação. Modelos como openai/gpt-5.5 são classificados com base em seu desempenho em jogos de cooperação, conflito e persuasão.
Ler original ↗