RESEARCH27
RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management
arXiv CS.AI·16 avril 2026
RiskWebWorld est présenté comme le premier benchmark interactif très réaliste pour évaluer les agents d'interface graphique dans la gestion des risques du commerce électronique, comblant le manque d'exploration dans les domaines d'enquête à enjeux élevés. Il propose 1 513 tâches issues de pipelines de contrôle des risques de production et une infrastructure compatible Gymnasium pour une évaluation évolutive, révélant un écart de capacités significatif.
Lire l'original ↗