Building an Evaluation Harness for Financial RAG: What I Learned About LLM-as-Judge Calibration
El autor desarrolló un sistema RAG para preguntas y respuestas financieras, utilizando documentos de la SEC y el benchmark FinanceBench. Descubrió una discrepancia significativa entre las evaluaciones de un LLM como juez y el rendimiento real, obteniendo lecciones sobre la calibración de LLMs para la evaluación.