RESEARCH27
CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations
arXiv CS.CL·27 de maio de 2026
Este trabalho introduz o CroCo, um método de ajuste de preferência contrastivo interlingual em autogerações de LLMs, que demonstra transferência eficaz entre 14 idiomas sem anotações de preferência específicas. O modelo de recompensa treinado em inglês produz classificações úteis em várias línguas, melhorando os modelos e prevenindo o esquecimento catastrófico, desde que utilize dados on-policy.
Ler original ↗