RESEARCH27

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

arXiv CS.CL·22 mai 2026

RankJudge est présenté comme un générateur de benchmark pour évaluer les LLM-as-a-judge dans les conversations multi-tours, abordant la complexité que les benchmarks existants axés sur les questions-réponses ne parviennent pas à saisir. Il crée des paires de conversations avec des défauts injectés, permettant un étiquetage sans ambiguïté et une isolation précise pour les développeurs de modèles s'appuyant sur l'auto-évaluation.

Multi-turn conversations LLM-as-a-judge Benchmarking Generative AI LLM evaluation

Lire l'original ↗