Building an Evaluation Harness for Financial RAG: What I Learned About LLM-as-Judge Calibration
O autor construiu um sistema RAG para perguntas e respostas financeiras, utilizando documentos da SEC e o benchmark FinanceBench. Descobriu uma grande discrepância entre a avaliação de um LLM como juiz e a performance real, levando a insights sobre a calibração de LLMs para avaliação.