RESEARCH31

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

arXiv CS.LG·16 de abril de 2026

Este artigo apresenta STOMP, um novo algoritmo de aprendizado por reforço offline para otimização multi-objetivo via escalarização suave de Tchebysheff. Ele supera as falhas da escalarização linear em recuperar regiões não convexas da fronteira de Pareto, essencial para alinhar modelos de linguagem grandes e outras aplicações com recompensas conflitantes.

reinforcement learning Multi-objective Optimization AI alignment machine learning large language models

Ler original ↗