← heapsort-ai

verifiable AI

2 items

RESEARCHarXiv CS.CL·il y a 26j

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Cet article propose la Supervision de Processus Vérifiable (VPS), un cadre de post-entraînement visant à optimiser simultanément la précision de la prédiction et la qualité du raisonnement des modèles linguistiques. Le VPS utilise un réglage fin supervisé pour induire un format de raisonnement structuré, évaluant les affirmations intermédiaires par rapport à des signaux de vérité terrain avec une pondération adaptative des récompenses.

27