model training

16 items

RESEARCH↑ trendingReddit r/MachineLearning·24/04/2026

New project about llm hallucination [P]

Ce contenu présente un nouveau projet annexe et son dépôt GitHub, axé sur l'atténuation des hallucinations des LLM via une méthode innovante d'échantillonnage contrastif et d'entraînement sélectif. L'idée principale considère l'hallucination comme un problème de préférence, utilisant des échantillons négatifs auto-générés et un apprentissage basé sur la divergence et les portes pour promouvoir les bonnes réponses et supprimer les mauvaises.

hallucination model training natural language processing AI safety

RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un développeur a entraîné des modèles de deep learning basés sur des transformateurs pour jouer aux échecs comme des humains dans diverses catégories de classement, y compris la prédiction du temps de réflexion. Les modèles ont été entraînés avec des données Lichess et ont atteint une précision comparable à MAIA-3, malgré leur petite taille.

AI models deep learning chess AI model training

RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 25j

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview est un modèle de fondation multimodal scientifique efficace de 35B qui atteint des performances comparables à celles de modèles à l'échelle du billion en explorant la mise à l'échelle des tâches et l'entraînement en chaîne complète. Il excelle dans des centaines de tâches scientifiques professionnelles tout en conservant de solides capacités de raisonnement général, de compréhension multimodale et d'agent.

AI models multimodal AI model training Foundation Models

internlm/Intern-S2-Preview · Hugging Face

ARTICLE↑ trendingReddit r/MachineLearning·07/05/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Un utilisateur disposant d'un jeu de données de 150 000 images de selles recherche les meilleures pratiques pour entraîner un modèle de vision par ordinateur. Il s'interroge sur son flux de travail actuel de vérification manuelle et cherche des approches plus intelligentes et évolutives pour garantir la qualité du jeu de données et des annotations.

dataset-quality model training machine learning computer vision

RESEARCHarXiv CS.LG·il y a 20j

Simply Stabilizing the Loop via Fully Looped Transformer

Les Transformers en Boucle permettent d'améliorer les performances des modèles en réutilisant itérativement les mêmes blocs sans augmenter le nombre de paramètres, mais ils souffrent d'instabilité d'entraînement avec des itérations plus élevées. Cette instabilité est attribuée à l'oscillation du gradient et à l'explosion résiduelle, ce qui a conduit à la proposition du Fully Looped Transformer, qui introduit une architecture entièrement bouclée et une injection d'attention.

neural networks AI architecture deep learning model training

RESEARCHarXiv CS.LG·01/05/2026

Monitoring Neural Training with Topology: A Footprint-Predictable Collapse Index

Un nouveau moniteur topologique, le Collapse Index (CI), est proposé pour détecter précocement le collapse représentationnel lors de l'entraînement neural. Il utilise des mises à jour rapides et incrémentales pour fournir un signal d'alerte précoce à faible latence pour des interventions dans le fine-tuning des LLM et l'entraînement KGE.

neural networks monitoring topology model training

RESEARCHDEV.to AI·06/05/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Ce contenu explore des techniques avancées pour optimiser l'entraînement des réseaux neuronaux, en se concentrant spécifiquement sur le traitement par micro-lots. Il détaille l'application de la normalisation par canal de lot et de la standardisation des poids pour améliorer les performances et la stabilité du modèle dans des scénarios avec de petites tailles de lot.

neural networks batch-normalization Optimization deep learning

RESEARCHarXiv CS.CL·04/05/2026

RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners

RSAT est une nouvelle méthode qui entraîne de petits modèles linguistiques (SLM) à produire un raisonnement fidèle et étape par étape pour les questions de tableau, étayé par des citations au niveau des cellules. Elle améliore significativement la fidélité (3.7x) et atteint une validité de citation quasi parfaite en intégrant l'attribution dans le processus de raisonnement.

language models attribution Table Reasoning model training

RESEARCHarXiv CS.LG·21/04/2026

Annotation Entropy Predicts Per-Example Learning Dynamics in LoRA Fine-Tuning

Cette recherche révèle que le réglage fin LoRA entraîne un 'désapprentissage' sur des exemples contestés, où un désaccord élevé des annotateurs est corrélé à une perte croissante pendant l'entraînement. Ce phénomène se distingue du réglage fin complet et est observé de manière constante sur divers modèles et ensembles de données.

model training machine learning NLP Fine-tuning

ARTICLEDEV.to AI·il y a 6j

hat Makes a Good SFT Sample (And Why Most Synthetic Datasets Get It Wrong)

De nombreux modèles linguistiques affinés obtiennent des performances moindres en raison de la mauvaise qualité des données synthétiques. Le problème ne vient pas de la configuration de l'entraînement, mais du manque de mécanismes pour filtrer les erreurs lors de la génération de données synthétiques.

synthetic data LLMs model training Fine-tuning

DOCAWS Machine Learning Blog·il y a 7j

The art and science of hyperparameter optimization on Amazon Nova Forge

Cet article explore l'optimisation des hyperparamètres sur Amazon Nova Forge, expliquant comment équilibrer l'amélioration des performances spécifiques à un domaine sans dégrader les capacités générales d'un modèle. Il aborde les stratégies de personnalisation, la configuration des paramètres d'entraînement et les moyens d'éviter les erreurs coûteuses.

Amazon Nova Forge hyperparameter optimization learning model training

RESEARCHDEV.to AI·10/05/2026

Distillation that keeps confidence honest

La distillation en-politique (OPD) traditionnelle conduit les petits modèles étudiants à un excès de confiance, car le modèle enseignant a accès à un contexte privilégié. De nouvelles recherches formalisent ce décalage et proposent le CaOPD pour corriger cette illusion de certitude sans sacrifier les gains de précision.

Confidence Calibration distillation model training machine learning

RESEARCHarXiv CS.AI·06/05/2026

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Cette recherche présente Terminus-4B, un petit modèle linguistique affiné, pour étudier sa capacité à remplacer les LLM de pointe dans les tâches d'exécution terminale agentique. Le modèle est post-entraîné en utilisant SFT et RL avec des récompenses basées sur une grille d'évaluation LLM-en-tant-que-juge.

LLMs model training performance evaluation Small Language Models

ARTICLEThe AI Epiphany (YouTube)·16/09/2024

Imbue - training a 70B model from scratch! (w/ Bowei - head of infra)

Ce contenu discute du projet ambitieux d'Imbue de former un modèle d'IA de 70 milliards de paramètres entièrement à partir de zéro. Il met en vedette Bowei, chef de l'infrastructure, qui donne un aperçu des défis et des processus impliqués dans une telle entreprise à grande échelle.

model training Imbue infrastructure large language models

Imbue - training a 70B model from scratch! (w/ Bowei - head of infra)

ARTICLEHugging Face Blog·03/03/2026

PRX Part 3 — Training a Text-to-Image Model in 24h!

Este é o terceiro episódio da série PRX, focado no desafio de treinar um modelo de inteligência artificial capaz de gerar imagens a partir de descrições textuais. O artigo propõe explorar como essa tarefa complexa pode ser realizada em um período otimizado de 24 horas.

Text-to-image deep learning model training machine learning

DOCHugging Face Blog·16/04/2026

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

Ce contenu traite de l'entraînement et du réglage fin des modèles d'embedding et de reranker multimodaux, en utilisant la bibliothèque Sentence Transformers pour optimiser leurs performances.

Finetuning embedding models multimodal AI model training