RESEARCH27
RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator
arXiv CS.CL·22 de maio de 2026
RankJudge é introduzido como um gerador de benchmark para avaliar LLM-as-a-judge em conversas multi-turno, abordando a complexidade que os benchmarks existentes focados em Q&A não capturam. Ele cria pares de conversas com falhas injetadas, permitindo rotulagem clara e isolamento preciso de problemas para desenvolvedores de modelos que utilizam autoavaliação.
Ler original ↗