RESEARCH31
Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents
arXiv CS.LG·21 avril 2026
Cette recherche présente un modèle de récompense génératif (GRM) basé sur des rubriques pour améliorer le réglage fin renforcé (RFT) des agents LLM dans les tâches d'ingénierie logicielle (SWE). En fournissant des signaux d'apprentissage plus riches au-delà des récompenses terminales binaires, cette approche façonne les comportements intermédiaires et améliore significativement la qualité du processus de résolution.
Lire l'original ↗