Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning
Esta pesquisa introduz PolyFact, um dataset de QA factual multilíngue, para abordar a inconsistência factual entre idiomas em LLMs. Conclui-se que o aprendizado por reforço via GRPO consistentemente melhora a recuperação factual entre idiomas e a generalização em comparação com o fine-tuning supervisionado.