RESEARCH27

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

arXiv CS.CL·20 de mayo de 2026

Los agentes de investigación profunda automatizan tareas complejas de búsqueda de información, lo que requiere una evaluación escalable y fiable. El uso de LLMs como jueces para la supervisión plantea dudas sobre su fiabilidad, resaltando la necesidad crítica de una meta-evaluación para estos jueces.

REFLECT meta-evaluation evaluation research agents LLM judges

Leer original ↗