RESEARCH27

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

arXiv CS.CL·27 de maio de 2026

Este trabalho introduz o CroCo, um método de ajuste de preferência contrastivo interlingual em autogerações de LLMs, que demonstra transferência eficaz entre 14 idiomas sem anotações de preferência específicas. O modelo de recompensa treinado em inglês produz classificações úteis em várias línguas, melhorando os modelos e prevenindo o esquecimento catastrófico, desde que utilize dados on-policy.

research machine learning NLP multilingual LLM

Ler original ↗