RESEARCHarXiv CS.CL·vor 27T
Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models
Dieses Papier schlägt die Verifizierbare Prozessüberwachung (VPS) vor, ein Post-Training-Framework zur gemeinsamen Optimierung der Vorhersagegenauigkeit und der Argumentationsqualität von Sprachmodellen. VPS verwendet überwachtes Fine-Tuning, um ein strukturiertes Argumentationsformat zu induzieren, das Zwischenbehauptungen anhand von Ground-Truth-Signalen mit adaptiver Belohnungsgewichtung bewertet.
27