RESEARCH27
Plan Before You Trade: Inference-Time Optimization for RL Trading Agents
arXiv CS.LG·14 mai 2026
Cet article présente FPILOT, un cadre d'optimisation en temps d'inférence pour les agents de trading basés sur l'apprentissage par renforcement. Il utilise des trajectoires de prix prédites pour optimiser la politique avant d'exécuter une transaction, étant compatible avec tout agent pré-entraîné.
Lire l'original ↗