pretraining

5 items

RESEARCH↑ trendingReddit r/LocalLLaMA·vor 27T

Efficient pretraining with token superposition by Nous Research

Der Inhalt befasst sich mit der Forschung von Nous Research zum effizienten Vortraining mit Token-Superposition, einer innovativen Technik zur Optimierung von KI-Modellen.

AI models pretraining machine learning

RESEARCHHugging Face Blog·vor 5T

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Dieser Inhalt behandelt die Generierung synthetischer Frage-Antwort-Paare, die für das Vortraining von KI-Modellen, insbesondere Nemotron, verwendet werden. Die Technik zielt darauf ab, die Modellleistung durch künstliche Trainingsdaten zu verbessern.

synthetic data AI models pretraining Q&A generation

RESEARCHHugging Face Blog·5/8/2026

EMO: Pretraining mixture of experts for emergent modularity

EMO schlägt einen Vortrainingsansatz für Mixture of Experts (MoE)-Modelle vor, der darauf abzielt, emergente Modularität zu erreichen. Diese Methode konzentriert sich auf die Entwicklung spezialisierter Komponenten innerhalb des Modells während der Vortrainingsphase.

Emergent Modularity AI models pretraining machine learning

RESEARCHarXiv CS.CL·4/21/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Dieses Papier bietet eine umfassende Übersicht über Datenmischung für das Vortraining großer Sprachmodelle (LLMs), ein entscheidender Faktor für Trainingseffizienz und nachgelagerte Generalisierung. Es formalisiert die Datenmischungsoptimierung als ein zweistufiges Problem und führt eine detaillierte Taxonomie für bestehende Methoden ein.

data optimization pretraining machine learning large language models

RESEARCHarXiv CS.LG·vor 8T

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn ist ein neues Framework für skalierbare, hochdimensionale Zeitreihenvorhersage, das die Lücke zwischen unabhängigen und abhängigen Kanalmodellen schließt. Es verwendet ein latentes Prototyp-Codebuch, um universelle Korrelationsmuster zu lernen, und übertrifft die modernsten Vorhersagearchitekturen, insbesondere in Few-Shot-Transfer-Szenarien.

forecasting pretraining deep learning machine learning