RESEARCH31

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

arXiv CS.LG·16 de abril de 2026

Este trabajo introduce STOMP, un novedoso algoritmo de aprendizaje por refuerzo fuera de línea para optimización multiobjetivo utilizando la escalarización suave de Tchebysheff. Aborda la limitación de la escalarización lineal para recuperar frentes de Pareto no convexos, crucial para alinear modelos de lenguaje grandes y otras aplicaciones con recompensas conflictivas.

reinforcement learning Multi-objective Optimization AI alignment machine learning large language models

Leer original ↗