heapsort
RESEARCH31

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

arXiv CS.LG·21 de abril de 2026

Esta pesquisa apresenta um Modelo de Recompensa Generativo (GRM) baseado em rubrica para aprimorar o Ajuste Fino Reforçado (RFT) para Agentes LLM em tarefas de Engenharia de Software (SWE). Ao fornecer sinais de aprendizado mais ricos além das recompensas terminais binárias, esta abordagem molda comportamentos intermediários e melhora significativamente a qualidade do processo de resolução.

Ler original