← heapsort-ai

Post-training LLMs

1 items

RESEARCHarXiv CS.CL·4d atrás

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Esta pesquisa investiga a otimização de Modelos de Linguagem Grandes (LLMs) para resposta a perguntas médicas focadas no coração, utilizando a Otimização de Política Relativa de Grupo (GRPO) para pós-treinamento. É proposto um Framework de Recompensa Sensível à Variância que melhora a supervisão baseada em rubricas com funções de recompensa analíticas contínuas.

30