data optimization

3 items

RESEARCHarXiv CS.LG·17/04/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas propose une méthode consciente de l'incertitude pour optimiser les mélanges de données lors du pré-entraînement des LLM multimodaux, en décomposant les corpus selon des concepts visuels et des types de tâches. En utilisant des modèles proxy et un substitut de processus gaussien, il découvre des recettes de données plus performantes pour une meilleure efficacité et généralisation.

data optimization multimodal AI Uncertainty Quantification Machine learning research

RESEARCHarXiv CS.CL·21/04/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Cet article propose une étude complète sur le mélange de données pour le pré-entraînement des grands modèles linguistiques (LLM), un facteur essentiel pour l'efficacité de l'entraînement et la généralisation en aval. Il formalise l'optimisation du mélange de données comme un problème à deux niveaux et introduit une taxonomie détaillée pour les méthodes existantes.

data optimization pretraining machine learning large language models

NEWSTogether AI Blog·30/04/2026

Announcing Together AI and Adaption Partnership

Together AI et Adaption s'associent pour intégrer nativement Together Fine-Tuning dans Adaptive Data. Cette collaboration vise à aider les équipes à optimiser les ensembles de données, à effectuer le fine-tuning, à évaluer les résultats et à déployer des modèles ouverts plus robustes.

data optimization machine learning AI partnerships Fine-tuning