heapsort
RESEARCH27

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

arXiv CS.CL·27 de mayo de 2026

Este trabajo presenta CroCo, un método de ajuste de preferencias contrastivas interlingües en autogeneraciones de LLMs, que demuestra una transferencia efectiva entre 14 idiomas sin anotaciones de preferencia específicas. Un modelo de recompensa entrenado en inglés produce clasificaciones útiles en la mayoría de los idiomas, mejorando los modelos existentes y previniendo el olvido catastrófico, siempre que se utilicen datos on-policy.

Leer original