research agents — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·hace 20d

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

Los agentes de investigación profunda automatizan tareas complejas de búsqueda de información, lo que requiere una evaluación escalable y fiable. El uso de LLMs como jueces para la supervisión plantea dudas sobre su fiabilidad, resaltando la necesidad crítica de una meta-evaluación para estos jueces.

REFLECT meta-evaluation evaluation research agents