RESEARCH31
Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization
arXiv CS.LG·16 de abril de 2026
Este artigo apresenta STOMP, um novo algoritmo de aprendizado por reforço offline para otimização multi-objetivo via escalarização suave de Tchebysheff. Ele supera as falhas da escalarização linear em recuperar regiões não convexas da fronteira de Pareto, essencial para alinhar modelos de linguagem grandes e outras aplicações com recompensas conflitantes.
Ler original ↗