RESEARCH60

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

arXiv CS.CL·8. Juni 2026

Diese Forschung stellt PolyFact vor, einen mehrsprachigen faktischen QA-Datensatz, um die sprachübergreifende faktische Inkonsistenz in LLMs zu beheben. Es wird festgestellt, dass Reinforcement Learning mittels GRPO die sprachübergreifende faktenbasierte Wiedergabe und Generalisierung im Vergleich zu supervised Fine-Tuning konsistent verbessert.

Multilingual AI LLMs reinforcement learning machine learning Natural Language Processing

Original lesen ↗