RESEARCHarXiv CS.AI·4/16/2026
RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management
RiskWebWorld wird als der erste hochrealistische interaktive Benchmark zur Bewertung von GUI-Agenten im E-Commerce-Risikomanagement vorgestellt, der deren unerforschte Effektivität in anspruchsvollen Untersuchungsbereichen adressiert. Es umfasst 1.513 Aufgaben aus Produktions-Risikokontroll-Pipelines und eine Gymnasium-konforme Infrastruktur für skalierbare Evaluationen, wobei es eine dramatische Fähigkeitslücke über diverse Modelle hinweg aufzeigt.
27