Plan Before You Trade: Inference-Time Optimization for RL Trading Agents
Cet article présente FPILOT, un cadre d'optimisation en temps d'inférence pour les agents de trading basés sur l'apprentissage par renforcement. Il utilise des trajectoires de prix prédites pour optimiser la politique avant d'exécuter une transaction, étant compatible avec tout agent pré-entraîné.