Plan Before You Trade: Inference-Time Optimization for RL Trading Agents
Este artículo presenta FPILOT, un marco de optimización en tiempo de inferencia para agentes de negociación de aprendizaje por refuerzo. Utiliza trayectorias de precios predichas para optimizar la política antes de ejecutar una operación, siendo compatible con cualquier agente pre-entrenado.