RESEARCH27

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

arXiv CS.CL·20 de maio de 2026

Agentes de pesquisa profunda automatizam tarefas complexas de busca de informações, exigindo avaliação escalável e confiável. O uso de LLMs como juízes para supervisão levanta questões sobre sua confiabilidade, destacando a necessidade de uma meta-avaliação específica para esses juízes.

REFLECT meta-evaluation evaluation research agents LLM judges

Ler original ↗