← heapsort-ai

Post-training LLMs

1 items

RESEARCHarXiv CS.CL·il y a 4j

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Cette recherche étudie l'amélioration de la réponse aux questions médicales axées sur le cœur dans les grands modèles linguistiques (LLM) à l'aide de l'optimisation de la politique relative de groupe (GRPO) pour le post-apprentissage. Un cadre de récompense sensible à la variance est proposé pour améliorer la supervision basée sur des rubriques avec des fonctions de récompense analytiques continues.

30