RESEARCH27
Plan Before You Trade: Inference-Time Optimization for RL Trading Agents
arXiv CS.LG·14 de maio de 2026
Este artigo apresenta o FPILOT, um framework de otimização em tempo de inferência para agentes de negociação baseados em aprendizado por reforço. Ele utiliza trajetórias de preços previstas para otimizar a política antes de executar uma negociação, sendo compatível com qualquer agente pré-treinado.
Ler original ↗