RESEARCH60
Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning
arXiv CS.CL·8. Juni 2026
Diese Forschung stellt PolyFact vor, einen mehrsprachigen faktischen QA-Datensatz, um die sprachübergreifende faktische Inkonsistenz in LLMs zu beheben. Es wird festgestellt, dass Reinforcement Learning mittels GRPO die sprachübergreifende faktenbasierte Wiedergabe und Generalisierung im Vergleich zu supervised Fine-Tuning konsistent verbessert.
Original lesen ↗