data optimization

3 items

RESEARCHarXiv CS.LG·4/17/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas führt eine unsicherheitsbewusste Methode zur Optimierung von Datenmischungen im Midtraining multimodaler LLMs ein, indem es Korpora entlang von Bildkonzepten und Aufgabenüberwachung zerlegt. Mithilfe von Proxy-Modellen und einem Gaußschen Prozess-Surrogat findet es leistungsfähigere Datenrezepte für verbesserte Stichprobenökonomie und Generalisierung.

data optimization multimodal AI Uncertainty Quantification Machine learning research

RESEARCHarXiv CS.CL·4/21/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Dieses Papier bietet eine umfassende Übersicht über Datenmischung für das Vortraining großer Sprachmodelle (LLMs), ein entscheidender Faktor für Trainingseffizienz und nachgelagerte Generalisierung. Es formalisiert die Datenmischungsoptimierung als ein zweistufiges Problem und führt eine detaillierte Taxonomie für bestehende Methoden ein.

data optimization pretraining machine learning large language models

NEWSTogether AI Blog·4/30/2026

Announcing Together AI and Adaption Partnership

Together AI und Adaption haben eine Partnerschaft geschlossen, um Together Fine-Tuning nativ in Adaptive Data zu integrieren. Ziel ist es, Teams bei der Optimierung von Datensätzen, der Durchführung von Fine-Tuning, der Bewertung von Ergebnissen und der Bereitstellung stärkerer offener Modelle zu unterstützen.

data optimization machine learning AI partnerships Fine-tuning