heapsort
RESEARCH32

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

arXiv CS.LG·17 de abril de 2026

MixAtlas é um método que otimiza a mistura de dados para o treinamento intermediário de LLMs multimodais, decompondo os corpora em conceitos visuais e tipos de tarefa. Utilizando modelos proxy e um substituto de processo gaussiano, ele encontra receitas de dados de melhor desempenho para eficiência e generalização aprimoradas.

Ler original