RESEARCH27
Plan Before You Trade: Inference-Time Optimization for RL Trading Agents
arXiv CS.LG·14 de mayo de 2026
Este artículo presenta FPILOT, un marco de optimización en tiempo de inferencia para agentes de negociación de aprendizaje por refuerzo. Utiliza trayectorias de precios predichas para optimizar la política antes de ejecutar una operación, siendo compatible con cualquier agente pre-entrenado.
Leer original ↗