heapsort
RESEARCH27

RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

arXiv CS.AI·16 de abril de 2026

Se presenta RiskWebWorld como el primer benchmark interactivo altamente realista para evaluar agentes GUI en la gestión de riesgos de comercio electrónico, abordando su eficacia poco explorada en dominios de investigación de alto riesgo. Incluye 1.513 tareas de tuberías de control de riesgo de producción y una infraestructura compatible con Gymnasium para una evaluación escalable, revelando una brecha de capacidad dramática en los modelos actuales.

Leer original