RESEARCH31
Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization
arXiv CS.LG·16 avril 2026
Cet article présente STOMP, un nouvel algorithme d'apprentissage par renforcement hors ligne pour l'optimisation multi-objectif via la scalarisation douce de Tchebysheff. Il résout les défaillances de la scalarisation linéaire pour récupérer les régions non convexes du front de Pareto, essentielles pour aligner les grands modèles linguistiques et d'autres applications avec des récompenses conflictuelles.
Lire l'original ↗