MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining
MixAtlas propose une méthode consciente de l'incertitude pour optimiser les mélanges de données lors du pré-entraînement des LLM multimodaux, en décomposant les corpus selon des concepts visuels et des types de tâches. En utilisant des modèles proxy et un substitut de processus gaussien, il découvre des recettes de données plus performantes pour une meilleure efficacité et généralisation.