← heapsort-ai

LLM-as-judge

4 items

ARTICLEDEV.to AI·hace 5d

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

El tamaño del conjunto de calibración etiquetado por humanos para validar un LLM-as-judge depende del equilibrio de las etiquetas. Cincuenta rastros son suficientes para criterios binarios equilibrados, pero se requieren 200 o más para categorías raras pero costosas, como las violaciones de seguridad, ya que la varianza de kappa está dominada por los ejemplos de la clase minoritaria.

28
RESEARCHarXiv CS.CL·hace 8d

Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology

Esta investigación explora cómo la adaptación de dominio remodela el comportamiento explicativo en modelos de lenguaje, utilizando la cosmología histórica como un entorno controlado. El estudio implica entrenar un modelo pequeño desde cero y ajustar un modelo más grande para analizar el marco explicativo y la postura cosmológica.

27