Multi-objective Optimization — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.LG·4/16/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Dieses Papier stellt STOMP vor, einen neuartigen Offline-Reinforcement-Learning-Algorithmus zur Mehrzieloptimierung mittels glatter Tchebyscheff-Skalarisierung. Er behebt die Einschränkung der linearen Skalarisierung bei der Wiederherstellung nicht-konvexer Pareto-Fronten, was entscheidend für die Ausrichtung großer Sprachmodelle und anderer realer Anwendungen mit widersprüchlichen Belohnungen ist.

reinforcement learning Multi-objective Optimization AI alignment machine learning