RESEARCH29

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

arXiv CS.AI·4 juin 2026

StepPRM-RTL est un nouveau framework qui améliore la génération de code RTL basée sur LLM, en combinant la modélisation de trajectoire pas à pas, la modélisation de récompense de processus (PRM) et le réglage fin augmenté par récupération (RAFT). Il utilise un feedback dense d'un PRM pour guider les mises à jour de type renforcement et la recherche arborescente de Monte Carlo (MCTS) pour enrichir l'ensemble de données d'entraînement.

LLMs reinforcement learning code generation RTL Synthesis Fine-tuning

Lire l'original ↗