RESEARCH27

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

arXiv CS.CL·20. Mai 2026

Tiefe Forschungsagenten automatisieren komplexe Informationsbeschaffungsaufgaben, was eine skalierbare und zuverlässige Bewertung erfordert. Der Einsatz von LLMs als Juroren zur Überwachung wirft Fragen nach deren Zuverlässigkeit auf und unterstreicht die Notwendigkeit einer Meta-Evaluierung für diese Juroren.

REFLECT meta-evaluation evaluation research agents LLM judges

Original lesen ↗