RESEARCH27

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

arXiv CS.CL·20 mai 2026

Les agents de recherche approfondie automatisent des tâches complexes de recherche d'informations, nécessitant une évaluation évolutive et fiable. L'utilisation de LLM en tant que juges pour la supervision soulève des questions sur leur fiabilité, soulignant le besoin critique d'une méta-évaluation spécifique pour ces juges.

REFLECT meta-evaluation evaluation research agents LLM judges

Lire l'original ↗