open-world evaluations — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.AI·vor 20T

Open-World Evaluations for Measuring Frontier AI Capabilities

Dieses Papier plädiert für „Open-World-Evaluierungen“ als Ergänzung zu traditionellen Benchmarks zur Messung von Grenz-KI-Fähigkeiten. Es stellt CRUX vor, ein Projekt zur Durchführung dieser regelmäßigen, langfristigen und realitätsnahen Aufgabenbewertungen, veranschaulicht durch einen KI-Agenten, der erfolgreich eine iOS-App veröffentlichte.

AI capabilities CRUX project open-world evaluations frontier AI