heapsort
RESEARCH31

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

arXiv CS.LG·21 avril 2026

Cette recherche présente un modèle de récompense génératif (GRM) basé sur des rubriques pour améliorer le réglage fin renforcé (RFT) des agents LLM dans les tâches d'ingénierie logicielle (SWE). En fournissant des signaux d'apprentissage plus riches au-delà des récompenses terminales binaires, cette approche façonne les comportements intermédiaires et améliore significativement la qualité du processus de résolution.

Lire l'original