Post-training LLMs — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·hace 4d

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Esta investigación explora la mejora de la respuesta a preguntas médicas centradas en el corazón en Modelos de Lenguaje Grandes (LLMs) utilizando la Optimización de Política Relativa de Grupo (GRPO) para el post-entrenamiento. Se propone un Marco de Recompensa Consciente de la Varianza que mejora la supervisión basada en rúbricas con funciones de recompensa analíticas continuas.

LLMs Medical Question Answering GRPO healthcare AI