RESEARCH29
StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis
arXiv CS.AI·4 juin 2026
StepPRM-RTL est un nouveau framework qui améliore la génération de code RTL basée sur LLM, en combinant la modélisation de trajectoire pas à pas, la modélisation de récompense de processus (PRM) et le réglage fin augmenté par récupération (RAFT). Il utilise un feedback dense d'un PRM pour guider les mises à jour de type renforcement et la recherche arborescente de Monte Carlo (MCTS) pour enrichir l'ensemble de données d'entraînement.
Lire l'original ↗