← heapsort-ai

DRO

1 items

RESEARCHarXiv CS.LG·13/04/2026

Distributionally Robust Token Optimization in RLHF

Para resolver a suscetibilidade dos LLMs a falhas por pequenas alterações nos prompts, especialmente em raciocínio multi-passos, pesquisadores propõem a Otimização de Token Distribuicionalmente Robusta (DRTO). Esta abordagem combina Reinforcement Learning a partir de Feedback Humano (RLHF) em nível de token com Otimização Distribuicionalmente Robusta (DRO) para aumentar a consistência sob mudanças de distribuição, demonstrando melhorias em benchmarks de raciocínio matemático.

27