heapsort
RESEARCH27

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

arXiv CS.CL·14 de maio de 2026

Este artigo propõe a Supervisão de Processo Verificável (VPS), uma estrutura de pós-treinamento para otimizar a precisão da previsão e a qualidade do raciocínio em modelos de linguagem. O VPS utiliza ajuste fino supervisionado para induzir um formato de raciocínio estruturado, avaliando afirmações intermediárias com sinais de verdade fundamental e ponderação adaptativa de recompensas.

Ler original