← heapsort-ai

LLM-as-judge

4 items

ARTICLEDEV.to AI·vor 5T

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

Die Größe des von Menschen etikettierten Kalibrierungssatzes zur Validierung eines LLM-as-judge hängt von der Ausgewogenheit der Labels ab. Fünfzig stratifizierte Spuren reichen für ausgewogene binäre Kriterien aus, aber für seltene, aber kostspielige Kategorien wie Sicherheitsverletzungen sind 200 oder mehr obligatorisch, da die Varianz des Kappa durch die Anzahl der Minderheitsklasse-Beispiele dominiert wird.

28
RESEARCHarXiv CS.CL·vor 8T

Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology

Diese Forschung untersucht, wie Domain-Adaptation das Erklärungsverhalten in Sprachmodellen neu gestaltet, wobei historische Kosmologie als kontrolliertes Umfeld dient. Die Studie umfasst das Training eines kleinen Modells von Grund auf und das Feintuning eines größeren Modells, um erklärende Rahmung und kosmologische Haltung zu analysieren.

27