RESEARCH27
Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
arXiv CS.CL·20. Mai 2026
Tiefe Forschungsagenten automatisieren komplexe Informationsbeschaffungsaufgaben, was eine skalierbare und zuverlässige Bewertung erfordert. Der Einsatz von LLMs als Juroren zur Überwachung wirft Fragen nach deren Zuverlässigkeit auf und unterstreicht die Notwendigkeit einer Meta-Evaluierung für diese Juroren.
Original lesen ↗