RESEARCHarXiv CS.CL·hace 20d
Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
Los agentes de investigación profunda automatizan tareas complejas de búsqueda de información, lo que requiere una evaluación escalable y fiable. El uso de LLMs como jueces para la supervisión plantea dudas sobre su fiabilidad, resaltando la necesidad crítica de una meta-evaluación para estos jueces.
27