← heapsort-ai

GUI agents

4 items

RESEARCHarXiv CS.AI·4/14/2026

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Die Arbeit stellt den „Turing Test on Screen“ vor, um Anti-Detektion für autonome GUI-Agenten zu modellieren, wobei die Humanisierung für deren Überleben in digitalen Ökosystemen betont wird. Sie etabliert den Agent Humanization Benchmark (AHB) und schlägt Methoden zur Verbesserung der Imitierbarkeit und Nützlichkeit der Agenten vor, basierend auf einem neuen Datensatz mobiler Berührungsdynamiken.

27
RESEARCHarXiv CS.AI·4/16/2026

RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

RiskWebWorld wird als der erste hochrealistische interaktive Benchmark zur Bewertung von GUI-Agenten im E-Commerce-Risikomanagement vorgestellt, der deren unerforschte Effektivität in anspruchsvollen Untersuchungsbereichen adressiert. Es umfasst 1.513 Aufgaben aus Produktions-Risikokontroll-Pipelines und eine Gymnasium-konforme Infrastruktur für skalierbare Evaluationen, wobei es eine dramatische Fähigkeitslücke über diverse Modelle hinweg aufzeigt.

27
RESEARCHarXiv CS.LG·4/6/2026

UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics

UI-Oceanus é uma estrutura que escala agentes GUI generalistas, focando em dominar a física da interação através de feedback ambiental em vez de imitar trajetórias. O sistema utiliza exploração autônoma e predição de dinâmicas futuras para construir um modelo de mundo interno robusto, superando limitações de dados e supervisão.

27