heapsort
RESEARCH27

RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

arXiv CS.AI·16 de abril de 2026

RiskWebWorld é apresentado como o primeiro benchmark interativo altamente realista para avaliar agentes de GUI na gestão de riscos de e-commerce, abordando sua eficácia subexplorada em domínios investigativos de alto risco. Ele inclui 1.513 tarefas de pipelines de controle de risco de produção e uma infraestrutura compatível com Gymnasium, revelando uma dramática lacuna de capacidade nos modelos atuais.

Ler original