← heapsort-ai

Multi-objective Optimization

1 items

RESEARCHarXiv CS.LG·16/04/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Este artigo apresenta STOMP, um novo algoritmo de aprendizado por reforço offline para otimização multi-objetivo via escalarização suave de Tchebysheff. Ele supera as falhas da escalarização linear em recuperar regiões não convexas da fronteira de Pareto, essencial para alinhar modelos de linguagem grandes e outras aplicações com recompensas conflitantes.

31