heapsort
ARTICLE29

Building an Evaluation Harness for Financial RAG: What I Learned About LLM-as-Judge Calibration

DEV.to AI·19 mai 2026

L'auteur a développé un système RAG pour les questions-réponses financières, en utilisant des documents de la SEC et le benchmark FinanceBench. Il a découvert un écart important entre les évaluations du LLM en tant que juge et les performances réelles, tirant des leçons sur le calibrage des LLM pour l'évaluation.

Lire l'original