RESEARCH29

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

arXiv CS.AI·4 de junio de 2026

StepPRM-RTL es un nuevo framework que mejora la generación de código RTL basada en LLM, combinando modelado de trayectoria paso a paso, modelado de recompensa de proceso (PRM) y ajuste fino aumentado por recuperación (RAFT). Utiliza retroalimentación densa de un PRM para guiar actualizaciones de estilo refuerzo y Monte Carlo Tree Search (MCTS) para enriquecer el conjunto de datos de entrenamiento.

LLMs reinforcement learning code generation RTL Synthesis Fine-tuning

Leer original ↗