RESEARCH27
RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator
arXiv CS.CL·22. Mai 2026
RankJudge wird als Benchmark-Generator zur Bewertung von LLM-as-a-Judge in mehrstufigen Konversationen vorgestellt, der die Komplexität adressiert, die bestehende Q&A-fokussierte Benchmarks nicht erfassen. Er erstellt Paare von Konversationen mit einzelnen Fehlern, was eine eindeutige Kennzeichnung und präzise Isolation für Modellentwickler ermöglicht, die sich auf die Auto-Evaluierung verlassen.
Original lesen ↗