RESEARCH60
UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs
arXiv CS.CL·8 de junio de 2026
Se introduce UnpredictaBench, un nuevo benchmark para evaluar la capacidad de los LLM de capturar verdaderas distribuciones subyacentes, abordando su tendencia a colapsar hacia respuestas únicas. Ofrece 448 problemas y una métrica KS@N para probar resultados de muestreo de diversas distribuciones objetivo.
Leer original ↗