RESEARCH27
Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
arXiv CS.CL·20 de maio de 2026
Agentes de pesquisa profunda automatizam tarefas complexas de busca de informações, exigindo avaliação escalável e confiável. O uso de LLMs como juízes para supervisão levanta questões sobre sua confiabilidade, destacando a necessidade de uma meta-avaliação específica para esses juízes.
Ler original ↗