RESEARCHarXiv CS.CL·1d atrás
UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs
Apresenta-se o UnpredictaBench, um novo benchmark para avaliar a capacidade de LLMs de capturar verdadeiras distribuições subjacentes, abordando a tendência de colapso para uma única resposta. Ele oferece 448 problemas e uma métrica KS@N para testar amostras de várias distribuições-alvo.
60