RESEARCHarXiv CS.LG·4/16/2026
Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization
Dieses Papier stellt STOMP vor, einen neuartigen Offline-Reinforcement-Learning-Algorithmus zur Mehrzieloptimierung mittels glatter Tchebyscheff-Skalarisierung. Er behebt die Einschränkung der linearen Skalarisierung bei der Wiederherstellung nicht-konvexer Pareto-Fronten, was entscheidend für die Ausrichtung großer Sprachmodelle und anderer realer Anwendungen mit widersprüchlichen Belohnungen ist.
31