RESEARCHarXiv CS.LG·16/04/2026
Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization
Este artigo apresenta STOMP, um novo algoritmo de aprendizado por reforço offline para otimização multi-objetivo via escalarização suave de Tchebysheff. Ele supera as falhas da escalarização linear em recuperar regiões não convexas da fronteira de Pareto, essencial para alinhar modelos de linguagem grandes e outras aplicações com recompensas conflitantes.
31