heapsort
RESEARCH60

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

arXiv CS.CL·8 juin 2026

Cette recherche introduit PolyFact, un ensemble de données de QA factuel multilingue, pour aborder l'incohérence factuelle interlingue dans les LLMs. Elle constate que l'apprentissage par renforcement via GRPO améliore constamment le rappel factuel interlingue et la généralisation par rapport à l'ajustement fin supervisé.

Lire l'original