RESEARCHarXiv CS.AI·il y a 20j
Open-World Evaluations for Measuring Frontier AI Capabilities
Cet article préconise les "évaluations en monde ouvert" en complément des benchmarks traditionnels pour mesurer les capacités de l'IA de pointe. Il présente CRUX, un projet visant à mener régulièrement ces évaluations à long terme et en situation réelle, illustré par un agent IA qui a publié avec succès une application iOS.
27