← heapsort-ai

AI Training

44 items

RESEARCHarXiv CS.CL·27/4/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Este artículo investiga si las recompensas de resultado en el aprendizaje por refuerzo para cadenas de pensamiento garantizan un razonamiento verificable o causalmente importante en los LLM. Introduciendo las métricas CIR y SR, los autores encuentran que, si bien el RLVR mejora la precisión, no mejora de forma fiable el CIR o el SR, y una pequeña cantidad de SFT puede remediar estos problemas.

27
RESEARCHarXiv CS.LG·8/5/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) presenta un paradigma de entrenamiento sin coordinador para equipos de LLMs más pequeños y eficientes, permitiendo actualizaciones descentralizadas y escalables. Este marco teórico garantiza una mejora monótona al aislar la deriva de ocupación con regiones de confianza KL por agente.

27
RESEARCHarXiv CS.LG·hace 22d

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta investigación aborda el desafío de la mala asignación de crédito en el aprendizaje por refuerzo para el razonamiento multi-paso con grandes modelos de lenguaje, causado por recompensas terminales dispersas que conducen a una alta varianza de gradiente y un entrenamiento inestable. Propone un marco de asignación de crédito basado en comparación contrafactual y la Optimización Implícita de la Política de Comportamiento (IBPO) para crear señales de aprendizaje sensibles al paso, mejorando significativamente la estabilidad y el rendimiento del entrenamiento.

27
RESEARCHarXiv CS.CL·hace 27d

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Este artículo propone la Supervisión de Proceso Verificable (VPS), un marco de post-entrenamiento para optimizar conjuntamente la precisión de predicción y la calidad del razonamiento en modelos de lenguaje. VPS emplea ajuste fino supervisado para inducir un formato de razonamiento estructurado, evaluando afirmaciones intermedias con señales de verdad fundamental y ponderación adaptativa de recompensas.

27
RESEARCHarXiv CS.LG·hace 27d

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

El artículo presenta la Destilación On-Policy Multi-Rollout (MOPD), un marco que utiliza el grupo de despliegues locales de un estudiante para construir señales de profesor más informativas para el post-entrenamiento de LLMs. MOPD condiciona al profesor tanto en despliegues exitosos como fallidos, utilizando los éxitos para patrones de razonamiento válidos y los fallos para evitar errores plausibles.

27
ARTICLEDEV.to AI·8/5/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Un equipo de ingeniería llevó a cabo cuatro iteraciones de entrenamiento DPO en Qwen2.5-Coder-7B-Instruct, con el objetivo de superar su puntuación del 87.20% en HumanEval pass@1. Los tres primeros intentos fallaron debido a errores en el pipeline de generación de muestras que las puertas de calidad existentes no detectaron, logrando la cuarta iteración una mejora de +0.61pp.

27
RESEARCHarXiv CS.CL·6/4/2026

Train Yourself as an LLM: Exploring Effects of AI Literacy on Persuasion via Role-playing LLM Training

Este estudo apresenta o LLMimic, um tutorial gamificado e interativo que permite aos participantes simular o treinamento de um LLM para aumentar a alfabetização em IA. A pesquisa avalia como essa intervenção proativa mitiga a persuasão por IA em cenários realistas, como doações ou recomendações, em comparação com um grupo de controle.

27
ARTICLEDEV.to AI·hace 14d

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Este artículo, parte de una serie sobre Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), detalla cómo se utiliza un modelo de recompensa preentrenado para entrenar un modelo de IA original. Explica que se usan nuevas indicaciones, el modelo original genera respuestas y el modelo de recompensa proporciona señales de retroalimentación, permitiendo que el modelo original aprenda a generar resultados más útiles y alineados con el humano.

24
DOCDEV.to AI·hace 20d

AI Stack Course Online | AI Stack Training

Este contenido explora la importancia del conocimiento de la pila de IA para roles de nivel inicial, detallando un flujo conceptual de cinco pasos desde la recopilación de datos hasta la mejora continua. Destaca cómo la comprensión de este proceso permite a los principiantes apoyar proyectos de IA de manera más efectiva.

23
ARTICLEDEV.to AI·23/4/2026

Artificial Intelligence Training in Patiala | Join Now

Excellence Technology en Patiala ofrece capacitación práctica en IA, cubriendo algoritmos de aprendizaje automático, Python y herramientas industriales. El programa ayuda a los interesados a convertirse en científicos de datos o desarrolladores de IA, mejorando sus habilidades para tener éxito en el campo.

19