UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs
Se introduce UnpredictaBench, un nuevo benchmark para evaluar la capacidad de los LLM de capturar verdaderas distribuciones subyacentes, abordando su tendencia a colapsar hacia respuestas únicas. Ofrece 448 problemas y una métrica KS@N para probar resultados de muestreo de diversas distribuciones objetivo.