← heapsort-ai

data optimization

3 items

RESEARCHarXiv CS.LG·17/04/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas propose une méthode consciente de l'incertitude pour optimiser les mélanges de données lors du pré-entraînement des LLM multimodaux, en décomposant les corpus selon des concepts visuels et des types de tâches. En utilisant des modèles proxy et un substitut de processus gaussien, il découvre des recettes de données plus performantes pour une meilleure efficacité et généralisation.

32
RESEARCHarXiv CS.CL·21/04/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Cet article propose une étude complète sur le mélange de données pour le pré-entraînement des grands modèles linguistiques (LLM), un facteur essentiel pour l'efficacité de l'entraînement et la généralisation en aval. Il formalise l'optimisation du mélange de données comme un problème à deux niveaux et introduit une taxonomie détaillée pour les méthodes existantes.

27