RESEARCH31

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

arXiv CS.LG·16 avril 2026

Cet article présente STOMP, un nouvel algorithme d'apprentissage par renforcement hors ligne pour l'optimisation multi-objectif via la scalarisation douce de Tchebysheff. Il résout les défaillances de la scalarisation linéaire pour récupérer les régions non convexes du front de Pareto, essentielles pour aligner les grands modèles linguistiques et d'autres applications avec des récompenses conflictuelles.

reinforcement learning Multi-objective Optimization AI alignment machine learning large language models

Lire l'original ↗