heapsort
RESEARCH27

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

arXiv CS.CL·14 de mayo de 2026

Este artículo propone la Supervisión de Proceso Verificable (VPS), un marco de post-entrenamiento para optimizar conjuntamente la precisión de predicción y la calidad del razonamiento en modelos de lenguaje. VPS emplea ajuste fino supervisado para inducir un formato de razonamiento estructurado, evaluando afirmaciones intermedias con señales de verdad fundamental y ponderación adaptativa de recompensas.

Leer original