← heapsort-ai

LLM-as-judge

4 items

DOCAWS Machine Learning Blog·il y a 1j

Evaluate your Amazon Nova Sonic voice agent at scale, no microphone required

Ce billet présente le Nova Sonic Test Harness, un cadre open source conçu pour l'évaluation à grande échelle et l'itération rapide des agents vocaux Amazon Nova Sonic. Il automatise les conversations multi-tours, utilise des techniques LLM-as-judge pour valider la qualité et peut détecter les hallucinations audio sans microphone.

46
ARTICLEDEV.to AI·il y a 5j

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

La taille de l'ensemble de calibration étiqueté par des humains pour valider un LLM-as-judge dépend de l'équilibre des étiquettes. Cinquante traces sont suffisantes pour des critères binaires équilibrés, mais 200 ou plus sont nécessaires pour des catégories rares et coûteuses, comme les violations de sécurité, car la variance du kappa est dominée par les exemples de la classe minoritaire.

28
RESEARCHarXiv CS.CL·il y a 8j

Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology

Cette recherche étudie comment l'adaptation de domaine remodèle le comportement explicatif des modèles de langage, en utilisant la cosmologie historique comme cadre contrôlé. L'étude implique l'entraînement d'un petit modèle à partir de zéro et le réglage fin d'un modèle plus grand pour analyser le cadrage explicatif et la position cosmologique.

27