LLM judges — articles, actualités et recherches IA

RESEARCHarXiv CS.CL·il y a 20j

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

Les agents de recherche approfondie automatisent des tâches complexes de recherche d'informations, nécessitant une évaluation évolutive et fiable. L'utilisation de LLM en tant que juges pour la supervision soulève des questions sur leur fiabilité, soulignant le besoin critique d'une méta-évaluation spécifique pour ces juges.

REFLECT meta-evaluation evaluation research agents