heapsort
RESEARCH60

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

arXiv CS.CL·8 de junho de 2026

Esta pesquisa introduz PolyFact, um dataset de QA factual multilíngue, para abordar a inconsistência factual entre idiomas em LLMs. Conclui-se que o aprendizado por reforço via GRPO consistentemente melhora a recuperação factual entre idiomas e a generalização em comparação com o fine-tuning supervisionado.

Ler original