← heapsort-ai

GUI agents

4 items

RESEARCHarXiv CS.AI·14/04/2026

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

O artigo apresenta o "Turing Test on Screen" para modelar a anti-detecção de agentes GUI autônomos, focando na humanização para sua sobrevivência em ecossistemas digitais. Ele estabelece o Agent Humanization Benchmark (AHB) e propõe métodos para melhorar a imitabilidade e utilidade dos agentes, usando um novo conjunto de dados de dinâmicas de toque móvel.

27
RESEARCHarXiv CS.AI·16/04/2026

RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

RiskWebWorld é apresentado como o primeiro benchmark interativo altamente realista para avaliar agentes de GUI na gestão de riscos de e-commerce, abordando sua eficácia subexplorada em domínios investigativos de alto risco. Ele inclui 1.513 tarefas de pipelines de controle de risco de produção e uma infraestrutura compatível com Gymnasium, revelando uma dramática lacuna de capacidade nos modelos atuais.

27
RESEARCHarXiv CS.LG·06/04/2026

UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics

UI-Oceanus é uma estrutura que escala agentes GUI generalistas, focando em dominar a física da interação através de feedback ambiental em vez de imitar trajetórias. O sistema utiliza exploração autônoma e predição de dinâmicas futuras para construir um modelo de mundo interno robusto, superando limitações de dados e supervisão.

27