heapsort
RESEARCH27

Distributionally Robust Token Optimization in RLHF

arXiv CS.LG·13 de abril de 2026

Para resolver a suscetibilidade dos LLMs a falhas por pequenas alterações nos prompts, especialmente em raciocínio multi-passos, pesquisadores propõem a Otimização de Token Distribuicionalmente Robusta (DRTO). Esta abordagem combina Reinforcement Learning a partir de Feedback Humano (RLHF) em nível de token com Otimização Distribuicionalmente Robusta (DRO) para aumentar a consistência sob mudanças de distribuição, demonstrando melhorias em benchmarks de raciocínio matemático.

Ler original