← heapsort-ai

pretraining

5 items

RESEARCHarXiv CS.CL·4/21/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Dieses Papier bietet eine umfassende Übersicht über Datenmischung für das Vortraining großer Sprachmodelle (LLMs), ein entscheidender Faktor für Trainingseffizienz und nachgelagerte Generalisierung. Es formalisiert die Datenmischungsoptimierung als ein zweistufiges Problem und führt eine detaillierte Taxonomie für bestehende Methoden ein.

27
RESEARCHarXiv CS.LG·vor 8T

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn ist ein neues Framework für skalierbare, hochdimensionale Zeitreihenvorhersage, das die Lücke zwischen unabhängigen und abhängigen Kanalmodellen schließt. Es verwendet ein latentes Prototyp-Codebuch, um universelle Korrelationsmuster zu lernen, und übertrifft die modernsten Vorhersagearchitekturen, insbesondere in Few-Shot-Transfer-Szenarien.

27