Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning
Cette recherche introduit PolyFact, un ensemble de données de QA factuel multilingue, pour aborder l'incohérence factuelle interlingue dans les LLMs. Elle constate que l'apprentissage par renforcement via GRPO améliore constamment le rappel factuel interlingue et la généralisation par rapport à l'ajustement fin supervisé.