RESEARCH31

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

arXiv CS.LG·21. April 2026

Diese Forschung stellt ein rubrikbasiertes Generatives Belohnungsmodell (GRM) vor, um das verstärkte Fein-Tuning (RFT) für LLM-Agenten bei Software-Engineering-Aufgaben (SWE) zu verbessern. Durch die Bereitstellung reichhaltigerer Lernsignale jenseits binärer Endbelohnungen formt dieser Ansatz Zwischenverhalten und verbessert die Qualität des Lösungsprozesses erheblich.

reinforcement learning Fine-tuning Software Engineering AI agents LLM

Original lesen ↗