heapsort
RESEARCH31

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

arXiv CS.LG·21 de abril de 2026

Esta investigación introduce un Modelo de Recompensa Generativo (GRM) basado en rúbricas para mejorar el Ajuste Fino Reforzado (RFT) en Agentes LLM para tareas de Ingeniería de Software (SWE). Al proporcionar señales de aprendizaje más ricas que las recompensas terminales binarias, este enfoque moldea los comportamientos intermedios y mejora significativamente la calidad del proceso de resolución.

Leer original