heapsort
RESEARCH27

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

arXiv CS.CL·27. Mai 2026

Diese Arbeit stellt CroCo vor, eine Methode zur kontrastiven Präferenzeinstellung über Sprachen hinweg für selbstgenerierte Antworten von LLMs, die eine effektive Übertragung über 14 Sprachen ohne sprachspezifische Präferenzannotationen zeigt. Ein auf englischen Präferenzen trainiertes Belohnungsmodell liefert nützliche Rankings in den meisten Sprachen, verbessert bestehende Modelle und verhindert katastrophales Vergessen, vorausgesetzt, On-Policy-Daten werden verwendet.

Original lesen