heapsort
RESEARCH27

Plan Before You Trade: Inference-Time Optimization for RL Trading Agents

arXiv CS.LG·14 mai 2026

Cet article présente FPILOT, un cadre d'optimisation en temps d'inférence pour les agents de trading basés sur l'apprentissage par renforcement. Il utilise des trajectoires de prix prédites pour optimiser la politique avant d'exécuter une transaction, étant compatible avec tout agent pré-entraîné.

Lire l'original