← heapsort-ai

Post-training LLMs

1 items

RESEARCHarXiv CS.CL·hace 4d

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Esta investigación explora la mejora de la respuesta a preguntas médicas centradas en el corazón en Modelos de Lenguaje Grandes (LLMs) utilizando la Optimización de Política Relativa de Grupo (GRPO) para el post-entrenamiento. Se propone un Marco de Recompensa Consciente de la Varianza que mejora la supervisión basada en rúbricas con funciones de recompensa analíticas continuas.

30