RESEARCH27

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

arXiv CS.CL·1 de junho de 2026

Este artigo introduz o CanLegalRAGBench, um novo benchmark para avaliação de modelos RAG em direito canadense, utilizando consultas realistas e respostas anotadas por especialistas. A pesquisa destaca a sensibilidade do desempenho de recuperação, a competitividade de modelos de embedding open-source e as limitações das avaliações automáticas e as alucinações em respostas geradas por LLMs.

Retrieval Augmented Generation LLMs evaluation Legal AI Benchmarks

Ler original ↗