RESEARCH27

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

arXiv CS.CL·22 de mayo de 2026

Se presenta RankJudge como un generador de puntos de referencia para evaluar LLM-as-a-judge en conversaciones de varias interacciones, abordando la complejidad que los puntos de referencia existentes centrados en preguntas y respuestas no capturan. Crea pares de conversaciones con defectos inyectados, lo que permite un etiquetado inequívoco y un aislamiento preciso para los desarrolladores de modelos que dependen de la auto-evaluación.

Multi-turn conversations LLM-as-a-judge Benchmarking Generative AI LLM evaluation

Leer original ↗