LLM-as-judge

4 items

DOCAWS Machine Learning Blog·vor 1T

Evaluate your Amazon Nova Sonic voice agent at scale, no microphone required

Dieser Beitrag stellt das Nova Sonic Test Harness vor, ein Open-Source-Framework zur skalierbaren Bewertung und schnellen Iteration von Amazon Nova Sonic Sprachagenten. Es automatisiert mehrstufige Konversationen, bewertet sie mit LLM-as-judge-Techniken und kann Audiohalluzinationen ohne Mikrofon erkennen.

LLM-as-judge Open Source Voice Agents Amazon Nova Sonic

ARTICLEDEV.to AI·vor 5T

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

Die Größe des von Menschen etikettierten Kalibrierungssatzes zur Validierung eines LLM-as-judge hängt von der Ausgewogenheit der Labels ab. Fünfzig stratifizierte Spuren reichen für ausgewogene binäre Kriterien aus, aber für seltene, aber kostspielige Kategorien wie Sicherheitsverletzungen sind 200 oder mehr obligatorisch, da die Varianz des Kappa durch die Anzahl der Minderheitsklasse-Beispiele dominiert wird.

LLM-as-judge Calibration evaluation sample size

RESEARCHarXiv CS.CL·vor 8T

Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology

Diese Forschung untersucht, wie Domain-Adaptation das Erklärungsverhalten in Sprachmodellen neu gestaltet, wobei historische Kosmologie als kontrolliertes Umfeld dient. Die Studie umfasst das Training eines kleinen Modells von Grund auf und das Feintuning eines größeren Modells, um erklärende Rahmung und kosmologische Haltung zu analysieren.

LLM-as-judge language models historical cosmology Domain Adaptation

ARTICLEDEV.to AI·4/8/2026

A Postmortem on Autonomous LLM-as-Judge: How My Eval Agent Got Two Verdicts Wrong Before I Found a Sandbox Bug

O autor descreve uma falha crítica em seu agente de avaliação autônomo baseado em LLM-as-judge, que emitiu vereditos errados sobre stacks de agentes de codificação. O problema, causado por um bug no sandbox, destaca como falhas silenciosas podem comprometer a confiabilidade de pipelines de IA em produção.

LLM-as-judge Eval Agents bugs Sandbox