RESEARCH31
Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents
arXiv CS.LG·21. April 2026
Diese Forschung stellt ein rubrikbasiertes Generatives Belohnungsmodell (GRM) vor, um das verstärkte Fein-Tuning (RFT) für LLM-Agenten bei Software-Engineering-Aufgaben (SWE) zu verbessern. Durch die Bereitstellung reichhaltigerer Lernsignale jenseits binärer Endbelohnungen formt dieser Ansatz Zwischenverhalten und verbessert die Qualität des Lösungsprozesses erheblich.
Original lesen ↗