Plan Before You Trade: Inference-Time Optimization for RL Trading Agents
Este artigo apresenta o FPILOT, um framework de otimização em tempo de inferência para agentes de negociação baseados em aprendizado por reforço. Ele utiliza trajetórias de preços previstas para otimizar a política antes de executar uma negociação, sendo compatível com qualquer agente pré-treinado.