heapsort
RESEARCH27

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

arXiv CS.CL·14. Mai 2026

Dieses Papier schlägt die Verifizierbare Prozessüberwachung (VPS) vor, ein Post-Training-Framework zur gemeinsamen Optimierung der Vorhersagegenauigkeit und der Argumentationsqualität von Sprachmodellen. VPS verwendet überwachtes Fine-Tuning, um ein strukturiertes Argumentationsformat zu induzieren, das Zwischenbehauptungen anhand von Ground-Truth-Signalen mit adaptiver Belohnungsgewichtung bewertet.

Original lesen