Multi-objective Optimization — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·16/04/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Este artigo apresenta STOMP, um novo algoritmo de aprendizado por reforço offline para otimização multi-objetivo via escalarização suave de Tchebysheff. Ele supera as falhas da escalarização linear em recuperar regiões não convexas da fronteira de Pareto, essencial para alinhar modelos de linguagem grandes e outras aplicações com recompensas conflitantes.

reinforcement learning Multi-objective Optimization AI alignment machine learning