heapsort
RESEARCH30

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

arXiv CS.CL·5. Juni 2026

Diese Forschung untersucht die Verbesserung der herzfokussierten medizinischen Fragenbeantwortung in großen Sprachmodellen (LLMs) mithilfe der Gruppenrelativen Richtlinienoptimierung (GRPO) für das Nachtraining. Es wird ein Varianzbewusster Belohnungsrahmen vorgeschlagen, der die rubrikbasierte Überwachung mit kontinuierlichen analytischen Belohnungsfunktionen verbessert.

Original lesen