RESEARCH60

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

arXiv CS.CL·8. Juni 2026

UnpredictaBench wird als neuer Benchmark eingeführt, um die Fähigkeit großer Sprachmodelle (LLMs) zu bewerten, wahre zugrunde liegende Verteilungen zu erfassen, da sie oft zu einer einzigen plausiblen Antwort tendieren. Er umfasst 448 Probleme und eine KS@N-Metrik, um Stichproben aus verschiedenen Zieldistributionen zu testen.

AI models LLMs evaluation Benchmarking randomness

Original lesen ↗