RESEARCH27

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

arXiv CS.CL·22 de maio de 2026

RankJudge é introduzido como um gerador de benchmark para avaliar LLM-as-a-judge em conversas multi-turno, abordando a complexidade que os benchmarks existentes focados em Q&A não capturam. Ele cria pares de conversas com falhas injetadas, permitindo rotulagem clara e isolamento preciso de problemas para desenvolvedores de modelos que utilizam autoavaliação.

Multi-turn conversations LLM-as-a-judge Benchmarking generative AI LLM evaluation

Ler original ↗