RESEARCH31

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

arXiv CS.LG·21 de abril de 2026

Esta pesquisa apresenta um Modelo de Recompensa Generativo (GRM) baseado em rubrica para aprimorar o Ajuste Fino Reforçado (RFT) para Agentes LLM em tarefas de Engenharia de Software (SWE). Ao fornecer sinais de aprendizado mais ricos além das recompensas terminais binárias, esta abordagem molda comportamentos intermediários e melhora significativamente a qualidade do processo de resolução.

reinforcement learning Fine-tuning Software Engineering AI agents LLM

Ler original ↗