← heapsort-ai

Multi-objective Optimization

1 items

RESEARCHarXiv CS.LG·16/04/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Cet article présente STOMP, un nouvel algorithme d'apprentissage par renforcement hors ligne pour l'optimisation multi-objectif via la scalarisation douce de Tchebysheff. Il résout les défaillances de la scalarisation linéaire pour récupérer les régions non convexes du front de Pareto, essentielles pour aligner les grands modèles linguistiques et d'autres applications avec des récompenses conflictuelles.

31