RESEARCH27
Open-World Evaluations for Measuring Frontier AI Capabilities
arXiv CS.AI·21 de mayo de 2026
Este artículo aboga por las "evaluaciones de mundo abierto" como complemento a los benchmarks tradicionales para medir las capacidades de la IA de frontera. Introduce CRUX, un proyecto para realizar estas evaluaciones regulares, a largo plazo y en el mundo real, ejemplificado por un agente de IA que publicó con éxito una aplicación para iOS.
Leer original ↗