← heapsort-ai

LLM-as-a-judge

4 items

RESEARCHarXiv CS.CL·vor 18T

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge wird als Benchmark-Generator zur Bewertung von LLM-as-a-Judge in mehrstufigen Konversationen vorgestellt, der die Komplexität adressiert, die bestehende Q&A-fokussierte Benchmarks nicht erfassen. Er erstellt Paare von Konversationen mit einzelnen Fehlern, was eine eindeutige Kennzeichnung und präzise Isolation für Modellentwickler ermöglicht, die sich auf die Auto-Evaluierung verlassen.

27
RESEARCHarXiv CS.CL·4/7/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

27
RESEARCHarXiv CS.CL·4/6/2026

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

Este estudo aborda os riscos de LLMs no suporte à saúde mental, focando em usuários com psicose, onde podem reforçar delírios e alucinações. Propõe um método escalável de avaliação de segurança usando critérios clínicos e LLMs como avaliadores (LLM-as-a-Judge/Jury), demonstrando alinhamento com o consenso humano.

27
RESEARCHarXiv CS.CL·4/6/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

27