ARTICLEDEV.to AI·vor 21T
Building an Evaluation Harness for Financial RAG: What I Learned About LLM-as-Judge Calibration
Der Autor entwickelte ein RAG-System für Finanz-Q&A unter Verwendung von SEC-Dokumenten und dem FinanceBench-Benchmark. Er entdeckte eine erhebliche Diskrepanz zwischen LLM-als-Richter-Bewertungen und der tatsächlichen Leistung, was zu Erkenntnissen über die Kalibrierung von LLMs für die Bewertung führte.
29