LLM-as-judge

4 items

DOCAWS Machine Learning Blog·hace 1d

Evaluate your Amazon Nova Sonic voice agent at scale, no microphone required

Este artículo presenta el Nova Sonic Test Harness, un framework de código abierto diseñado para la evaluación escalable y la iteración rápida de agentes de voz Amazon Nova Sonic. Automatiza conversaciones de varios turnos, utiliza técnicas de LLM-como-juez y puede detectar alucinaciones de audio sin necesidad de micrófono.

LLM-as-judge Open Source Voice Agents Amazon Nova Sonic

ARTICLEDEV.to AI·hace 5d

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

El tamaño del conjunto de calibración etiquetado por humanos para validar un LLM-as-judge depende del equilibrio de las etiquetas. Cincuenta rastros son suficientes para criterios binarios equilibrados, pero se requieren 200 o más para categorías raras pero costosas, como las violaciones de seguridad, ya que la varianza de kappa está dominada por los ejemplos de la clase minoritaria.

LLM-as-judge Calibration evaluation sample size

RESEARCHarXiv CS.CL·hace 8d

Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology

Esta investigación explora cómo la adaptación de dominio remodela el comportamiento explicativo en modelos de lenguaje, utilizando la cosmología histórica como un entorno controlado. El estudio implica entrenar un modelo pequeño desde cero y ajustar un modelo más grande para analizar el marco explicativo y la postura cosmológica.

LLM-as-judge language models historical cosmology Domain Adaptation

ARTICLEDEV.to AI·8/4/2026

A Postmortem on Autonomous LLM-as-Judge: How My Eval Agent Got Two Verdicts Wrong Before I Found a Sandbox Bug

O autor descreve uma falha crítica em seu agente de avaliação autônomo baseado em LLM-as-judge, que emitiu vereditos errados sobre stacks de agentes de codificação. O problema, causado por um bug no sandbox, destaca como falhas silenciosas podem comprometer a confiabilidade de pipelines de IA em produção.

LLM-as-judge Eval Agents bugs Sandbox