← heapsort-ai

GUI automation

2 items

ARTICLEDEV.to AI·4/13/2026

Open-Sourcing Mano-P Today: Pure Vision GUI Agent, OSWorld #1, Apache 2.0

Mano-P, ein reiner Vision-GUI-Agent, wurde unter Apache 2.0 quelloffen veröffentlicht und zeichnet sich dadurch aus, dass er ausschließlich über Screenshots mit Computerbildschirmen interagiert. Es erzielt Spitzenleistungen bei OSWorld-Benchmarks, legt Wert auf Datenschutz durch On-Device-Ausführung und ist somit ein grundlegendes Werkzeug für die Entwicklung personalisierter KI.

27
RESEARCHarXiv CS.AI·5/1/2026

Step-level Optimization for Efficient Computer-use Agents

Diese Forschung beleuchtet die Ineffizienz aktueller Computer-Nutzungs-Agenten, die große multimodale Modelle für jede GUI-Interaktion überbeanspruchen. Es wird argumentiert, dass Aufgaben heterogen sind, wobei Routineschritte weniger Rechenleistung benötigen und Fehler sich in Hochrisikomomenten wie Stillstand oder semantischer Drift konzentrieren, was eine gezielte Optimierung erfordert.

27