← heapsort-ai

data optimization

3 items

RESEARCHarXiv CS.LG·17/04/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas é um método que otimiza a mistura de dados para o treinamento intermediário de LLMs multimodais, decompondo os corpora em conceitos visuais e tipos de tarefa. Utilizando modelos proxy e um substituto de processo gaussiano, ele encontra receitas de dados de melhor desempenho para eficiência e generalização aprimoradas.

32
RESEARCHarXiv CS.CL·21/04/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Este artigo oferece uma pesquisa abrangente sobre a mistura de dados para o pré-treinamento de Large Language Models (LLMs), um fator crucial para a eficiência do treinamento e a generalização posterior. Ele formaliza a otimização da mistura de dados como um problema de dois níveis e introduz uma taxonomia detalhada para os métodos existentes.

27