LLM-as-a-judge

4 items

RESEARCHarXiv CS.CL·vor 18T

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge wird als Benchmark-Generator zur Bewertung von LLM-as-a-Judge in mehrstufigen Konversationen vorgestellt, der die Komplexität adressiert, die bestehende Q&A-fokussierte Benchmarks nicht erfassen. Er erstellt Paare von Konversationen mit einzelnen Fehlern, was eine eindeutige Kennzeichnung und präzise Isolation für Modellentwickler ermöglicht, die sich auf die Auto-Evaluierung verlassen.

Multi-turn conversations LLM-as-a-judge Benchmarking Generative AI

RESEARCHarXiv CS.CL·4/7/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-judge Constrained MLE Model Evaluation Failure Rate Estimation

RESEARCHarXiv CS.CL·4/6/2026

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

Este estudo aborda os riscos de LLMs no suporte à saúde mental, focando em usuários com psicose, onde podem reforçar delírios e alucinações. Propõe um método escalável de avaliação de segurança usando critérios clínicos e LLMs como avaliadores (LLM-as-a-Judge/Jury), demonstrando alinhamento com o consenso humano.

LLM-as-a-judge psicose Saúde Mental avaliação automatizada

RESEARCHarXiv CS.CL·4/6/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

language models Unlabeled Data Knowledge Distillation Math Reasoning