LLM-as-judge

4 items

DOCAWS Machine Learning Blog·1d atrás

Evaluate your Amazon Nova Sonic voice agent at scale, no microphone required

Esta publicação apresenta o Nova Sonic Test Harness, uma estrutura de código aberto para avaliação escalonável e iteração rápida de agentes de voz Amazon Nova Sonic. Ele automatiza conversas multi-turn e usa técnicas LLM-as-judge para validar a qualidade, inclusive detectando alucinações de áudio.

LLM-as-judge Open Source Voice Agents Amazon Nova Sonic

ARTICLEDEV.to AI·5d atrás

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

O tamanho do conjunto de calibração rotulado por humanos para validar um LLM-as-judge depende do equilíbrio dos rótulos. Para critérios binários balanceados, 50 traços são suficientes, mas para categorias raras e caras, como violações de segurança, 200 ou mais são necessários devido à sensibilidade da variância do kappa à contagem de exemplos da classe minoritária.

LLM-as-judge Calibration evaluation sample size

RESEARCHarXiv CS.CL·8d atrás

Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology

Esta pesquisa investiga como a adaptação de domínio remodela o comportamento explicativo em modelos de linguagem, usando a cosmologia histórica como cenário controlado. O estudo envolve o treinamento de um modelo pequeno do zero e o ajuste fino de um modelo maior para analisar o enquadramento explicativo e a postura cosmológica.

LLM-as-judge language models historical cosmology Domain Adaptation

ARTICLEDEV.to AI·08/04/2026

A Postmortem on Autonomous LLM-as-Judge: How My Eval Agent Got Two Verdicts Wrong Before I Found a Sandbox Bug

O autor descreve uma falha crítica em seu agente de avaliação autônomo baseado em LLM-as-judge, que emitiu vereditos errados sobre stacks de agentes de codificação. O problema, causado por um bug no sandbox, destaca como falhas silenciosas podem comprometer a confiabilidade de pipelines de IA em produção.

LLM-as-judge Eval Agents bugs Sandbox