RESEARCH27

Evaluating Large Language Models in a Complex Hidden Role Game

arXiv CS.CL·25 de maio de 2026

Esta pesquisa quantifica o potencial enganoso de Large Language Models (LLMs) no jogo de dedução social Secret Hitler, introduzindo métricas e um framework open-source. O estudo compara LLMs com algoritmos baseados em regras e jogos humanos, identificando uma lacuna entre a capacidade conversacional e a profundidade estratégica, e mostrando que técnicas de aprimoramento de raciocínio podem piorar o desempenho.

Game AI Benchmarking deception large language models AI safety

Ler original ↗