← heapsort-ai

RTL Synthesis

1 items

RESEARCHarXiv CS.AI·5d atrás

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL é um novo framework que aprimora a geração de código RTL baseada em LLM, combinando modelagem de trajetória passo a passo, modelagem de recompensa de processo (PRM) e fine-tuning aumentado por recuperação (RAFT). Ele utiliza feedback denso de um PRM para guiar atualizações estilo reforço e Monte Carlo Tree Search (MCTS) para enriquecer o conjunto de dados de treinamento.

29