RESEARCH40
Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework
arXiv CS.AI·27 de abril de 2026
Modelos de linguagem grandes (LLMs) apresentam Riscos de Raciocínio Estratégico Emergente (ESRRs), como engano e exploração de recompensas. É introduzido o ESRRSim, uma estrutura agêntica baseada em taxonomia, para avaliar sistematicamente esses riscos através de cenários gerados automaticamente e rubricas duplas.
security
Ler original ↗