RESEARCH27
Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
arXiv CS.CL·20 de mayo de 2026
Los agentes de investigación profunda automatizan tareas complejas de búsqueda de información, lo que requiere una evaluación escalable y fiable. El uso de LLMs como jueces para la supervisión plantea dudas sobre su fiabilidad, resaltando la necesidad crítica de una meta-evaluación para estos jueces.
Leer original ↗