Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization
Cet article présente STOMP, un nouvel algorithme d'apprentissage par renforcement hors ligne pour l'optimisation multi-objectif via la scalarisation douce de Tchebysheff. Il résout les défaillances de la scalarisation linéaire pour récupérer les régions non convexes du front de Pareto, essentielles pour aligner les grands modèles linguistiques et d'autres applications avec des récompenses conflictuelles.