RESEARCHarXiv CS.CL·il y a 20j
Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
Les agents de recherche approfondie automatisent des tâches complexes de recherche d'informations, nécessitant une évaluation évolutive et fiable. L'utilisation de LLM en tant que juges pour la supervision soulève des questions sur leur fiabilité, soulignant le besoin critique d'une méta-évaluation spécifique pour ces juges.
27