RESEARCH27
RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator
arXiv CS.CL·22 mai 2026
RankJudge est présenté comme un générateur de benchmark pour évaluer les LLM-as-a-judge dans les conversations multi-tours, abordant la complexité que les benchmarks existants axés sur les questions-réponses ne parviennent pas à saisir. Il crée des paires de conversations avec des défauts injectés, permettant un étiquetage sans ambiguïté et une isolation précise pour les développeurs de modèles s'appuyant sur l'auto-évaluation.
Lire l'original ↗