heapsort
RESEARCH27

Plan Before You Trade: Inference-Time Optimization for RL Trading Agents

arXiv CS.LG·14 de maio de 2026

Este artigo apresenta o FPILOT, um framework de otimização em tempo de inferência para agentes de negociação baseados em aprendizado por reforço. Ele utiliza trajetórias de preços previstas para otimizar a política antes de executar uma negociação, sendo compatível com qualquer agente pré-treinado.

Ler original