RESEARCH40

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

arXiv CS.AI·27 de abril de 2026

Modelos de linguagem grandes (LLMs) apresentam Riscos de Raciocínio Estratégico Emergente (ESRRs), como engano e exploração de recompensas. É introduzido o ESRRSim, uma estrutura agêntica baseada em taxonomia, para avaliar sistematicamente esses riscos através de cenários gerados automaticamente e rubricas duplas.

security

Ler original ↗