← heapsort-ai

Post-training LLMs

1 items

RESEARCHarXiv CS.CL·vor 4T

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Diese Forschung untersucht die Verbesserung der herzfokussierten medizinischen Fragenbeantwortung in großen Sprachmodellen (LLMs) mithilfe der Gruppenrelativen Richtlinienoptimierung (GRPO) für das Nachtraining. Es wird ein Varianzbewusster Belohnungsrahmen vorgeschlagen, der die rubrikbasierte Überwachung mit kontinuierlichen analytischen Belohnungsfunktionen verbessert.

30