RESEARCH29
StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis
arXiv CS.AI·4 de junho de 2026
StepPRM-RTL é um novo framework que aprimora a geração de código RTL baseada em LLM, combinando modelagem de trajetória passo a passo, modelagem de recompensa de processo (PRM) e fine-tuning aumentado por recuperação (RAFT). Ele utiliza feedback denso de um PRM para guiar atualizações estilo reforço e Monte Carlo Tree Search (MCTS) para enriquecer o conjunto de dados de treinamento.
Ler original ↗