UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs
UnpredictaBench wird als neuer Benchmark eingeführt, um die Fähigkeit großer Sprachmodelle (LLMs) zu bewerten, wahre zugrunde liegende Verteilungen zu erfassen, da sie oft zu einer einzigen plausiblen Antwort tendieren. Er umfasst 448 Probleme und eine KS@N-Metrik, um Stichproben aus verschiedenen Zieldistributionen zu testen.