← heapsort-ai

DRO

1 items

RESEARCHarXiv CS.LG·13/4/2026

Distributionally Robust Token Optimization in RLHF

Para abordar la susceptibilidad de los LLMs a fallos por pequeños cambios en las instrucciones, especialmente en el razonamiento de varios pasos, los investigadores proponen la Optimización de Tokens Robusta Distribucionalmente (DRTO). Este enfoque combina el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) a nivel de token con la Optimización Robusta Distribucionalmente (DRO) para mejorar la consistencia bajo cambios de distribución, mostrando mejoras en benchmarks de razonamiento matemático.

27