RESEARCH27
Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models
arXiv CS.CL·14. Mai 2026
Dieses Papier schlägt die Verifizierbare Prozessüberwachung (VPS) vor, ein Post-Training-Framework zur gemeinsamen Optimierung der Vorhersagegenauigkeit und der Argumentationsqualität von Sprachmodellen. VPS verwendet überwachtes Fine-Tuning, um ein strukturiertes Argumentationsformat zu induzieren, das Zwischenbehauptungen anhand von Ground-Truth-Signalen mit adaptiver Belohnungsgewichtung bewertet.
Original lesen ↗