pretraining

5 items

RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 27j

Efficient pretraining with token superposition by Nous Research

Le contenu examine la recherche de Nous Research sur le pré-entraînement efficace avec superposition de jetons, une technique innovante visant à optimiser les modèles d'IA.

AI models pretraining machine learning

RESEARCHHugging Face Blog·il y a 5j

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Ce contenu traite de la génération de paires de questions-réponses synthétiques, utilisées pour le pré-entraînement des modèles d'IA, en particulier Nemotron. La technique vise à améliorer les performances des modèles grâce à des données d'entraînement artificielles.

synthetic data AI models pretraining Q&A generation

RESEARCHHugging Face Blog·08/05/2026

EMO: Pretraining mixture of experts for emergent modularity

EMO propose une approche de pré-entraînement pour les modèles Mixture of Experts (MoE), visant à atteindre une modularité émergente. Cette méthode se concentre sur le développement de composants spécialisés au sein du modèle pendant la phase de pré-entraînement.

Emergent Modularity AI models pretraining machine learning

RESEARCHarXiv CS.CL·21/04/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Cet article propose une étude complète sur le mélange de données pour le pré-entraînement des grands modèles linguistiques (LLM), un facteur essentiel pour l'efficacité de l'entraînement et la généralisation en aval. Il formalise l'optimisation du mélange de données comme un problème à deux niveaux et introduit une taxonomie détaillée pour les méthodes existantes.

data optimization pretraining machine learning large language models

RESEARCHarXiv CS.LG·il y a 8j

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn est un nouveau framework pour la prévision évolutive des séries temporelles de haute dimension, comblant le fossé entre les modèles existants en apprenant des motifs d'interaction universels. Il utilise un carnet de codes de prototypes latents, surpassant les architectures de pointe, surtout dans les scénarios de transfert à faible nombre d'exemples.

forecasting pretraining deep learning machine learning