heapsort
RESEARCH32

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

arXiv CS.LG·17 de abril de 2026

MixAtlas presenta un método consciente de la incertidumbre para optimizar mezclas de datos en el entrenamiento intermedio de LLMs multimodales, descomponiendo los corpora en conceptos de imagen y tipos de tarea. Utilizando modelos proxy y un sustituto de proceso gaussiano, encuentra recetas de datos de mejor rendimiento para una mayor eficiencia y generalización.

Leer original