LLM-as-judge

4 items

DOCAWS Machine Learning Blog·il y a 1j

Evaluate your Amazon Nova Sonic voice agent at scale, no microphone required

Ce billet présente le Nova Sonic Test Harness, un cadre open source conçu pour l'évaluation à grande échelle et l'itération rapide des agents vocaux Amazon Nova Sonic. Il automatise les conversations multi-tours, utilise des techniques LLM-as-judge pour valider la qualité et peut détecter les hallucinations audio sans microphone.

LLM-as-judge Open Source Voice Agents Amazon Nova Sonic

ARTICLEDEV.to AI·il y a 5j

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

La taille de l'ensemble de calibration étiqueté par des humains pour valider un LLM-as-judge dépend de l'équilibre des étiquettes. Cinquante traces sont suffisantes pour des critères binaires équilibrés, mais 200 ou plus sont nécessaires pour des catégories rares et coûteuses, comme les violations de sécurité, car la variance du kappa est dominée par les exemples de la classe minoritaire.

LLM-as-judge Calibration evaluation sample size

RESEARCHarXiv CS.CL·il y a 8j

Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology

Cette recherche étudie comment l'adaptation de domaine remodèle le comportement explicatif des modèles de langage, en utilisant la cosmologie historique comme cadre contrôlé. L'étude implique l'entraînement d'un petit modèle à partir de zéro et le réglage fin d'un modèle plus grand pour analyser le cadrage explicatif et la position cosmologique.

LLM-as-judge language models historical cosmology Domain Adaptation

ARTICLEDEV.to AI·08/04/2026

A Postmortem on Autonomous LLM-as-Judge: How My Eval Agent Got Two Verdicts Wrong Before I Found a Sandbox Bug

O autor descreve uma falha crítica em seu agente de avaliação autônomo baseado em LLM-as-judge, que emitiu vereditos errados sobre stacks de agentes de codificação. O problema, causado por um bug no sandbox, destaca como falhas silenciosas podem comprometer a confiabilidade de pipelines de IA em produção.

LLM-as-judge Eval Agents bugs Sandbox