RESEARCH27
Distributionally Robust Token Optimization in RLHF
arXiv CS.LG·13 avril 2026
Pour résoudre la susceptibilité des LLM aux échecs dus à de petits changements dans les invites, notamment pour le raisonnement en plusieurs étapes, des chercheurs proposent l'Optimisation de Tokens Robuste Distributionnellement (DRTO). Cette approche combine l'apprentissage par renforcement à partir du feedback humain (RLHF) au niveau du token avec l'optimisation robuste distributionnellement (DRO) pour améliorer la cohérence sous les changements de distribution, montrant des améliorations sur les benchmarks de raisonnement mathématique.
Lire l'original ↗