data optimization

3 items

RESEARCHarXiv CS.LG·17/4/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas presenta un método consciente de la incertidumbre para optimizar mezclas de datos en el entrenamiento intermedio de LLMs multimodales, descomponiendo los corpora en conceptos de imagen y tipos de tarea. Utilizando modelos proxy y un sustituto de proceso gaussiano, encuentra recetas de datos de mejor rendimiento para una mayor eficiencia y generalización.

data optimization multimodal AI Uncertainty Quantification Machine learning research

RESEARCHarXiv CS.CL·21/4/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Este artículo presenta una encuesta exhaustiva sobre la mezcla de datos para el preentrenamiento de Large Language Models (LLMs), un factor crucial para la eficiencia del entrenamiento y la generalización posterior. Formaliza la optimización de la mezcla de datos como un problema de dos niveles e introduce una taxonomía detallada para los métodos existentes.

data optimization pretraining machine learning large language models

NEWSTogether AI Blog·30/4/2026

Announcing Together AI and Adaption Partnership

Together AI y Adaption se han asociado para integrar Together Fine-Tuning de forma nativa en Adaptive Data. Esto ayudará a los equipos a optimizar conjuntos de datos, ejecutar fine-tuning, evaluar resultados y desplegar modelos abiertos más potentes.

data optimization machine learning AI partnerships Fine-tuning