RESEARCH29
StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis
arXiv CS.AI·4 de junio de 2026
StepPRM-RTL es un nuevo framework que mejora la generación de código RTL basada en LLM, combinando modelado de trayectoria paso a paso, modelado de recompensa de proceso (PRM) y ajuste fino aumentado por recuperación (RAFT). Utiliza retroalimentación densa de un PRM para guiar actualizaciones de estilo refuerzo y Monte Carlo Tree Search (MCTS) para enriquecer el conjunto de datos de entrenamiento.
Leer original ↗