RESEARCH27

Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games

arXiv CS.AI·7 de maio de 2026

Agent Island é um novo ambiente de simulação multiagente para modelos de linguagem, atuando como um benchmark dinâmico projetado para mitigar a saturação e a contaminação. Modelos como openai/gpt-5.5 são classificados com base em seu desempenho em jogos de cooperação, conflito e persuasão.

language models benchmarking multiagent games AI multiagent systems

Ler original ↗