RESEARCH60
UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs
arXiv CS.CL·8 juin 2026
UnpredictaBench est présenté comme un nouveau benchmark pour évaluer la capacité des LLM à capturer de véritables distributions sous-jacentes, résolvant leur tendance à converger vers une seule réponse. Il propose 448 problèmes et une métrique KS@N pour tester les résultats d'échantillonnage à partir de diverses distributions cibles.
Lire l'original ↗