RESEARCH60

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

arXiv CS.CL·8 de junio de 2026

Se introduce UnpredictaBench, un nuevo benchmark para evaluar la capacidad de los LLM de capturar verdaderas distribuciones subyacentes, abordando su tendencia a colapsar hacia respuestas únicas. Ofrece 448 problemas y una métrica KS@N para probar resultados de muestreo de diversas distribuciones objetivo.

AI models LLMs evaluation Benchmarking randomness

Leer original ↗