UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs
UnpredictaBench est présenté comme un nouveau benchmark pour évaluer la capacité des LLM à capturer de véritables distributions sous-jacentes, résolvant leur tendance à converger vers une seule réponse. Il propose 448 problèmes et une métrique KS@N pour tester les résultats d'échantillonnage à partir de diverses distributions cibles.