RESEARCH60
UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs
arXiv CS.CL·8 de junho de 2026
Apresenta-se o UnpredictaBench, um novo benchmark para avaliar a capacidade de LLMs de capturar verdadeiras distribuições subjacentes, abordando a tendência de colapso para uma única resposta. Ele oferece 448 problemas e uma métrica KS@N para testar amostras de várias distribuições-alvo.
Ler original ↗