RESEARCH32
MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining
arXiv CS.LG·17 de abril de 2026
MixAtlas é um método que otimiza a mistura de dados para o treinamento intermediário de LLMs multimodais, decompondo os corpora em conceitos visuais e tipos de tarefa. Utilizando modelos proxy e um substituto de processo gaussiano, ele encontra receitas de dados de melhor desempenho para eficiência e generalização aprimoradas.
Ler original ↗