← heapsort-ai

AI models evaluation

1 items

RESEARCHarXiv CS.AI·4/16/2026

RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

RiskWebWorld wird als der erste hochrealistische interaktive Benchmark zur Bewertung von GUI-Agenten im E-Commerce-Risikomanagement vorgestellt, der deren unerforschte Effektivität in anspruchsvollen Untersuchungsbereichen adressiert. Es umfasst 1.513 Aufgaben aus Produktions-Risikokontroll-Pipelines und eine Gymnasium-konforme Infrastruktur für skalierbare Evaluationen, wobei es eine dramatische Fähigkeitslücke über diverse Modelle hinweg aufzeigt.

27