← heapsort-ai

AI models evaluation

1 items

RESEARCHarXiv CS.AI·16/4/2026

RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

Se presenta RiskWebWorld como el primer benchmark interactivo altamente realista para evaluar agentes GUI en la gestión de riesgos de comercio electrónico, abordando su eficacia poco explorada en dominios de investigación de alto riesgo. Incluye 1.513 tareas de tuberías de control de riesgo de producción y una infraestructura compatible con Gymnasium para una evaluación escalable, revelando una brecha de capacidad dramática en los modelos actuales.

27