RESEARCH60

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

arXiv CS.CL·8 de junho de 2026

Apresenta-se o UnpredictaBench, um novo benchmark para avaliar a capacidade de LLMs de capturar verdadeiras distribuições subjacentes, abordando a tendência de colapso para uma única resposta. Ele oferece 448 problemas e uma métrica KS@N para testar amostras de várias distribuições-alvo.

AI models LLMs evaluation Benchmarking randomness

Ler original ↗