← heapsort-ai

GUI agents

4 items

RESEARCHarXiv CS.AI·4/16/2026

RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

RiskWebWorld is presented as the first highly realistic interactive benchmark for evaluating GUI agents in e-commerce risk management, addressing their underexplored effectiveness in high-stakes investigative domains. It features 1,513 tasks from production risk-control pipelines and a Gymnasium-compliant infrastructure for scalable evaluation, revealing a dramatic capability gap across diverse models.

27
RESEARCHarXiv CS.LG·4/6/2026

UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics

UI-Oceanus é uma estrutura que escala agentes GUI generalistas, focando em dominar a física da interação através de feedback ambiental em vez de imitar trajetórias. O sistema utiliza exploração autônoma e predição de dinâmicas futuras para construir um modelo de mundo interno robusto, superando limitações de dados e supervisão.

27