← heapsort-ai

Benchmarks de IA

1 items

RESEARCHarXiv CS.AI·7/4/2026

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Este artigo de posição argumenta que dados de benchmark em nível de item são essenciais para uma ciência rigorosa da avaliação de IA, abordando falhas de validade sistêmicas nas metodologias atuais. Ele propõe a análise em nível de item para diagnósticos detalhados e validação de benchmarks, baseando-se em conceitos da ciência da computação e psicometria.

27