RESEARCH31
Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents
arXiv CS.LG·21 de abril de 2026
Esta pesquisa apresenta um Modelo de Recompensa Generativo (GRM) baseado em rubrica para aprimorar o Ajuste Fino Reforçado (RFT) para Agentes LLM em tarefas de Engenharia de Software (SWE). Ao fornecer sinais de aprendizado mais ricos além das recompensas terminais binárias, esta abordagem molda comportamentos intermediários e melhora significativamente a qualidade do processo de resolução.
Ler original ↗