heapsort
RESEARCH30

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

arXiv CS.CL·5 de junio de 2026

Esta investigación explora la mejora de la respuesta a preguntas médicas centradas en el corazón en Modelos de Lenguaje Grandes (LLMs) utilizando la Optimización de Política Relativa de Grupo (GRPO) para el post-entrenamiento. Se propone un Marco de Recompensa Consciente de la Varianza que mejora la supervisión basada en rúbricas con funciones de recompensa analíticas continuas.

Leer original