RESEARCH31

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

arXiv CS.LG·16. April 2026

Dieses Papier stellt STOMP vor, einen neuartigen Offline-Reinforcement-Learning-Algorithmus zur Mehrzieloptimierung mittels glatter Tchebyscheff-Skalarisierung. Er behebt die Einschränkung der linearen Skalarisierung bei der Wiederherstellung nicht-konvexer Pareto-Fronten, was entscheidend für die Ausrichtung großer Sprachmodelle und anderer realer Anwendungen mit widersprüchlichen Belohnungen ist.

reinforcement learning Multi-objective Optimization AI alignment machine learning large language models

Original lesen ↗