ARTICLE23
My First RAG System Had No Evals. 40% of Answers Were Wrong.
DEV.to AI·13 de abril de 2026
El autor notó que los sistemas RAG de producción a menudo carecen de una evaluación adecuada, lo que lleva a un bajo rendimiento y un 40% de respuestas incorrectas. Descubrió que la mayoría de los fallos de RAG provienen de problemas de recuperación, no de LLM, y enfatiza la medición de Recall@k para abordarlos.
Leer original ↗