← heapsort-ai

GUI agents

4 items

RESEARCHarXiv CS.AI·14/4/2026

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

El artículo presenta el "Turing Test on Screen" para modelar la anti-detección de agentes GUI autónomos, destacando la humanización para su supervivencia en ecosistemas digitales. Establece el Agent Humanization Benchmark (AHB) y propone métodos para mejorar la imitabilidad y utilidad de los agentes, usando un nuevo conjunto de datos de dinámicas táctiles móviles.

27
RESEARCHarXiv CS.AI·16/4/2026

RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

Se presenta RiskWebWorld como el primer benchmark interactivo altamente realista para evaluar agentes GUI en la gestión de riesgos de comercio electrónico, abordando su eficacia poco explorada en dominios de investigación de alto riesgo. Incluye 1.513 tareas de tuberías de control de riesgo de producción y una infraestructura compatible con Gymnasium para una evaluación escalable, revelando una brecha de capacidad dramática en los modelos actuales.

27
RESEARCHarXiv CS.LG·6/4/2026

UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics

UI-Oceanus é uma estrutura que escala agentes GUI generalistas, focando em dominar a física da interação através de feedback ambiental em vez de imitar trajetórias. O sistema utiliza exploração autônoma e predição de dinâmicas futuras para construir um modelo de mundo interno robusto, superando limitações de dados e supervisão.

27