heapsort
RESEARCH27

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

arXiv CS.CL·27 mai 2026

Ce travail présente CroCo, une méthode de réglage de préférence contrastif interlingue sur les auto-générations de LLM, démontrant un transfert efficace sur 14 langues sans annotation de préférence spécifique. Un modèle de récompense entraîné en anglais produit des classements utiles dans la plupart des langues, améliorant les modèles existants et empêchant l'oubli catastrophique, à condition d'utiliser des données on-policy.

Lire l'original