RESEARCH27
Open-World Evaluations for Measuring Frontier AI Capabilities
arXiv CS.AI·21 de maio de 2026
Este artigo propõe as "avaliações de mundo aberto" como um complemento aos benchmarks tradicionais para medir as capacidades de IA de fronteira. Ele introduz o CRUX, um projeto para realizar essas avaliações de longo prazo e no mundo real, demonstrando seu potencial com um agente de IA que publicou com sucesso um aplicativo iOS.
Ler original ↗