RESEARCH60

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

arXiv CS.CL·8 juin 2026

UnpredictaBench est présenté comme un nouveau benchmark pour évaluer la capacité des LLM à capturer de véritables distributions sous-jacentes, résolvant leur tendance à converger vers une seule réponse. Il propose 448 problèmes et une métrique KS@N pour tester les résultats d'échantillonnage à partir de diverses distributions cibles.

AI models LLMs evaluation Benchmarking randomness

Lire l'original ↗