RESEARCH60

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

arXiv CS.CL·8 de junio de 2026

Esta investigación presenta PolyFact, un conjunto de datos de preguntas y respuestas factuales multilingüe, para abordar la inconsistencia factual entre idiomas en los LLMs. Se encuentra que el aprendizaje por refuerzo a través de GRPO mejora consistentemente la recuperación factual entre idiomas y la generalización en comparación con el ajuste fino supervisado.

Multilingual AI LLMs reinforcement learning machine learning natural language processing

Leer original ↗