← heapsort-ai

AI training

43 items

RESEARCHarXiv CS.CL·27/04/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Cet article examine si les récompenses de résultat dans l'apprentissage par renforcement pour le raisonnement en chaîne de pensée garantissent un raisonnement vérifiable ou causalement important dans les LLM. Introduisant les métriques CIR et SR, les auteurs constatent que le RLVR améliore la précision, mais pas toujours le CIR ou le SR, et qu'un léger SFT peut y remédier.

27
RESEARCHarXiv CS.LG·08/05/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) introduit un paradigme d'entraînement sans coordinateur pour des équipes de LLM plus petits et plus efficaces, permettant des mises à jour décentralisées et évolutives. Ce cadre théorique garantit une amélioration monotone en isolant la dérive d'occupation avec des régions de confiance KL par agent.

27
RESEARCHarXiv CS.LG·il y a 21j

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Cette recherche aborde le défi de la mauvaise attribution de crédit dans l'apprentissage par renforcement pour le raisonnement en plusieurs étapes avec les grands modèles de langage, causée par des récompenses terminales éparses entraînant une variance de gradient élevée et une formation instable. Elle propose un cadre d'attribution de crédit basé sur la comparaison contrefactuelle et l'optimisation implicite de la politique de comportement (IBPO) pour créer des signaux d'apprentissage sensibles aux étapes, améliorant considérablement la stabilité et les performances de l'entraînement.

27
RESEARCHarXiv CS.CL·il y a 26j

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Cet article propose la Supervision de Processus Vérifiable (VPS), un cadre de post-entraînement visant à optimiser simultanément la précision de la prédiction et la qualité du raisonnement des modèles linguistiques. Le VPS utilise un réglage fin supervisé pour induire un format de raisonnement structuré, évaluant les affirmations intermédiaires par rapport à des signaux de vérité terrain avec une pondération adaptative des récompenses.

27
RESEARCHarXiv CS.LG·il y a 26j

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

L'article introduit la Distillation On-Policy Multi-Rollout (MOPD), un cadre qui utilise le groupe de déploiements locaux d'un étudiant pour construire des signaux d'enseignant plus informatifs pour le post-apprentissage des LLM. La MOPD conditionne l'enseignant sur les déploiements réussis et échoués, exploitant les réussites pour les schémas de raisonnement valides et les échecs pour éviter les erreurs plausibles.

27
ARTICLEDEV.to AI·08/05/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Une équipe d'ingénieurs a mené quatre itérations d'entraînement DPO sur Qwen2.5-Coder-7B-Instruct, cherchant à dépasser son score de 87,20% au HumanEval pass@1. Les trois premières tentatives ont échoué en raison de bugs dans le pipeline de génération d'échantillons non détectés par les contrôles de qualité existants, la quatrième itération aboutissant à une amélioration de +0,61pp.

27
RESEARCHarXiv CS.CL·06/04/2026

Train Yourself as an LLM: Exploring Effects of AI Literacy on Persuasion via Role-playing LLM Training

Este estudo apresenta o LLMimic, um tutorial gamificado e interativo que permite aos participantes simular o treinamento de um LLM para aumentar a alfabetização em IA. A pesquisa avalia como essa intervenção proativa mitiga a persuasão por IA em cenários realistas, como doações ou recomendações, em comparação com um grupo de controle.

27
ARTICLEDEV.to AI·05/05/2026

[Day 2] I Trained an AI on 22 Photos of My Cat — Now It Draws Her in Any Scene

L'auteur a entraîné une IA avec 22 photos de son chat afin que le modèle puisse générer des images de l'animal dans n'importe quelle scène, en utilisant la technique LoRA. Cet article détaille le deuxième jour de l'expérience, se concentrant sur la préparation et la sélection des photos pour enseigner à l'IA les caractéristiques distinctives du chat.

24
ARTICLEDEV.to AI·il y a 14j

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Cet article, faisant partie d'une série sur l'apprentissage par renforcement avec feedback humain (RLHF), détaille comment un modèle de récompense pré-entraîné est utilisé pour former un modèle d'IA original. Il explique que de nouvelles invites sont utilisées, le modèle original génère des réponses, et le modèle de récompense fournit des signaux de feedback, permettant au modèle original d'apprendre à générer des sorties plus utiles et alignées sur les préférences humaines.

24
DOCDEV.to AI·il y a 20j

AI Stack Course Online | AI Stack Training

Ce contenu explore l'importance de la connaissance de la pile d'IA pour les postes de débutants, détaillant un flux conceptuel en cinq étapes, de la collecte de données à l'amélioration continue. Il souligne comment la compréhension de ce processus permet aux débutants de soutenir plus efficacement les projets d'IA.

23
ARTICLECoursera Blog·19/02/2026

Google launches AI Professional Certificate on Coursera and offers free access to U.S. small businesses 

Google a lancé un Certificat Professionnel en IA sur Coursera, destiné à doter les professionnels de compétences pratiques pour intégrer l'IA dans leur travail quotidien. Les apprenants inscrits bénéficieront également de trois mois d'accès gratuit à Google AI Pro, avec une offre pour les petites entreprises américaines.

21
ARTICLEDEV.to AI·23/04/2026

Artificial Intelligence Training in Patiala | Join Now

Excellence Technology à Patiala propose une formation pratique en IA, couvrant les algorithmes d'apprentissage automatique, Python et les outils industriels. Ce programme vise à aider les individus à devenir des scientifiques de données ou des développeurs d'IA, améliorant leurs compétences pour réussir dans ce domaine.

19