heapsort
RESEARCH27

Open-World Evaluations for Measuring Frontier AI Capabilities

arXiv CS.AI·21 de mayo de 2026

Este artículo aboga por las "evaluaciones de mundo abierto" como complemento a los benchmarks tradicionales para medir las capacidades de la IA de frontera. Introduce CRUX, un proyecto para realizar estas evaluaciones regulares, a largo plazo y en el mundo real, ejemplificado por un agente de IA que publicó con éxito una aplicación para iOS.

Leer original