RESEARCH27

Open-World Evaluations for Measuring Frontier AI Capabilities

arXiv CS.AI·21 de maio de 2026

Este artigo propõe as "avaliações de mundo aberto" como um complemento aos benchmarks tradicionais para medir as capacidades de IA de fronteira. Ele introduz o CRUX, um projeto para realizar essas avaliações de longo prazo e no mundo real, demonstrando seu potencial com um agente de IA que publicou com sucesso um aplicativo iOS.

AI capabilities CRUX project open-world evaluations frontier AI AI evaluation

Ler original ↗