open-world evaluations — articles, actualités et recherches IA

RESEARCHarXiv CS.AI·il y a 20j

Open-World Evaluations for Measuring Frontier AI Capabilities

Cet article préconise les "évaluations en monde ouvert" en complément des benchmarks traditionnels pour mesurer les capacités de l'IA de pointe. Il présente CRUX, un projet visant à mener régulièrement ces évaluations à long terme et en situation réelle, illustré par un agent IA qui a publié avec succès une application iOS.

AI capabilities CRUX project open-world evaluations frontier AI