RESEARCH29

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

arXiv CS.AI·4 de junho de 2026

StepPRM-RTL é um novo framework que aprimora a geração de código RTL baseada em LLM, combinando modelagem de trajetória passo a passo, modelagem de recompensa de processo (PRM) e fine-tuning aumentado por recuperação (RAFT). Ele utiliza feedback denso de um PRM para guiar atualizações estilo reforço e Monte Carlo Tree Search (MCTS) para enriquecer o conjunto de dados de treinamento.

LLMs reinforcement learning code generation RTL Synthesis Fine-tuning

Ler original ↗