RESEARCHarXiv CS.CL·hace 26d
Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models
Este artículo propone la Supervisión de Proceso Verificable (VPS), un marco de post-entrenamiento para optimizar conjuntamente la precisión de predicción y la calidad del razonamiento en modelos de lenguaje. VPS emplea ajuste fino supervisado para inducir un formato de razonamiento estructurado, evaluando afirmaciones intermedias con señales de verdad fundamental y ponderación adaptativa de recompensas.
27