RESEARCH60
Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning
arXiv CS.CL·8 de junio de 2026
Esta investigación presenta PolyFact, un conjunto de datos de preguntas y respuestas factuales multilingüe, para abordar la inconsistencia factual entre idiomas en los LLMs. Se encuentra que el aprendizaje por refuerzo a través de GRPO mejora consistentemente la recuperación factual entre idiomas y la generalización en comparación con el ajuste fino supervisado.
Leer original ↗