heapsort
RESEARCH27

Plan Before You Trade: Inference-Time Optimization for RL Trading Agents

arXiv CS.LG·14 de mayo de 2026

Este artículo presenta FPILOT, un marco de optimización en tiempo de inferencia para agentes de negociación de aprendizaje por refuerzo. Utiliza trayectorias de precios predichas para optimizar la política antes de ejecutar una operación, siendo compatible con cualquier agente pre-entrenado.

Leer original