← heapsort-ai

model training

16 items

RESEARCH↑ trendingReddit r/MachineLearning·24/04/2026

New project about llm hallucination [P]

Ce contenu présente un nouveau projet annexe et son dépôt GitHub, axé sur l'atténuation des hallucinations des LLM via une méthode innovante d'échantillonnage contrastif et d'entraînement sélectif. L'idée principale considère l'hallucination comme un problème de préférence, utilisant des échantillons négatifs auto-générés et un apprentissage basé sur la divergence et les portes pour promouvoir les bonnes réponses et supprimer les mauvaises.

New project about llm hallucination [P]
45
RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un développeur a entraîné des modèles de deep learning basés sur des transformateurs pour jouer aux échecs comme des humains dans diverses catégories de classement, y compris la prédiction du temps de réflexion. Les modèles ont été entraînés avec des données Lichess et ont atteint une précision comparable à MAIA-3, malgré leur petite taille.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 25j

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview est un modèle de fondation multimodal scientifique efficace de 35B qui atteint des performances comparables à celles de modèles à l'échelle du billion en explorant la mise à l'échelle des tâches et l'entraînement en chaîne complète. Il excelle dans des centaines de tâches scientifiques professionnelles tout en conservant de solides capacités de raisonnement général, de compréhension multimodale et d'agent.

internlm/Intern-S2-Preview · Hugging Face
42
ARTICLE↑ trendingReddit r/MachineLearning·07/05/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Un utilisateur disposant d'un jeu de données de 150 000 images de selles recherche les meilleures pratiques pour entraîner un modèle de vision par ordinateur. Il s'interroge sur son flux de travail actuel de vérification manuelle et cherche des approches plus intelligentes et évolutives pour garantir la qualité du jeu de données et des annotations.

42
RESEARCHarXiv CS.LG·il y a 20j

Simply Stabilizing the Loop via Fully Looped Transformer

Les Transformers en Boucle permettent d'améliorer les performances des modèles en réutilisant itérativement les mêmes blocs sans augmenter le nombre de paramètres, mais ils souffrent d'instabilité d'entraînement avec des itérations plus élevées. Cette instabilité est attribuée à l'oscillation du gradient et à l'explosion résiduelle, ce qui a conduit à la proposition du Fully Looped Transformer, qui introduit une architecture entièrement bouclée et une injection d'attention.

29
RESEARCHarXiv CS.LG·01/05/2026

Monitoring Neural Training with Topology: A Footprint-Predictable Collapse Index

Un nouveau moniteur topologique, le Collapse Index (CI), est proposé pour détecter précocement le collapse représentationnel lors de l'entraînement neural. Il utilise des mises à jour rapides et incrémentales pour fournir un signal d'alerte précoce à faible latence pour des interventions dans le fine-tuning des LLM et l'entraînement KGE.

28
RESEARCHDEV.to AI·06/05/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Ce contenu explore des techniques avancées pour optimiser l'entraînement des réseaux neuronaux, en se concentrant spécifiquement sur le traitement par micro-lots. Il détaille l'application de la normalisation par canal de lot et de la standardisation des poids pour améliorer les performances et la stabilité du modèle dans des scénarios avec de petites tailles de lot.

27
RESEARCHarXiv CS.CL·04/05/2026

RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners

RSAT est une nouvelle méthode qui entraîne de petits modèles linguistiques (SLM) à produire un raisonnement fidèle et étape par étape pour les questions de tableau, étayé par des citations au niveau des cellules. Elle améliore significativement la fidélité (3.7x) et atteint une validité de citation quasi parfaite en intégrant l'attribution dans le processus de raisonnement.

27
RESEARCHarXiv CS.LG·21/04/2026

Annotation Entropy Predicts Per-Example Learning Dynamics in LoRA Fine-Tuning

Cette recherche révèle que le réglage fin LoRA entraîne un 'désapprentissage' sur des exemples contestés, où un désaccord élevé des annotateurs est corrélé à une perte croissante pendant l'entraînement. Ce phénomène se distingue du réglage fin complet et est observé de manière constante sur divers modèles et ensembles de données.

27
DOCAWS Machine Learning Blog·il y a 7j

The art and science of hyperparameter optimization on Amazon Nova Forge

Cet article explore l'optimisation des hyperparamètres sur Amazon Nova Forge, expliquant comment équilibrer l'amélioration des performances spécifiques à un domaine sans dégrader les capacités générales d'un modèle. Il aborde les stratégies de personnalisation, la configuration des paramètres d'entraînement et les moyens d'éviter les erreurs coûteuses.

27