RESEARCH30
Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO
arXiv CS.CL·5. Juni 2026
Diese Forschung untersucht die Verbesserung der herzfokussierten medizinischen Fragenbeantwortung in großen Sprachmodellen (LLMs) mithilfe der Gruppenrelativen Richtlinienoptimierung (GRPO) für das Nachtraining. Es wird ein Varianzbewusster Belohnungsrahmen vorgeschlagen, der die rubrikbasierte Überwachung mit kontinuierlichen analytischen Belohnungsfunktionen verbessert.
Original lesen ↗