RESEARCH27

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

arXiv CS.CL·22. Mai 2026

RankJudge wird als Benchmark-Generator zur Bewertung von LLM-as-a-Judge in mehrstufigen Konversationen vorgestellt, der die Komplexität adressiert, die bestehende Q&A-fokussierte Benchmarks nicht erfassen. Er erstellt Paare von Konversationen mit einzelnen Fehlern, was eine eindeutige Kennzeichnung und präzise Isolation für Modellentwickler ermöglicht, die sich auf die Auto-Evaluierung verlassen.

Multi-turn conversations LLM-as-a-judge Benchmarking Generative AI LLM evaluation

Original lesen ↗