pretraining

5 items

RESEARCH↑ trendingReddit r/LocalLLaMA·27d atrás

Efficient pretraining with token superposition by Nous Research

O conteúdo aborda a pesquisa da Nous Research sobre o pré-treinamento eficiente usando superposição de tokens, uma técnica inovadora para otimizar modelos de IA.

AI models pretraining machine learning

RESEARCHHugging Face Blog·5d atrás

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Este conteúdo aborda a geração de perguntas e respostas sintéticas, que são usadas para o pré-treinamento de modelos de IA, especificamente o Nemotron. A técnica visa melhorar o desempenho dos modelos através de dados de treinamento artificiais.

synthetic data AI models pretraining Q&A generation

RESEARCHHugging Face Blog·08/05/2026

EMO: Pretraining mixture of experts for emergent modularity

EMO propõe uma abordagem de pré-treinamento para modelos Mixture of Experts (MoE), com o objetivo de alcançar modularidade emergente. Este método concentra-se no desenvolvimento de componentes especializados dentro do modelo durante a fase de pré-treinamento.

Emergent Modularity AI models pretraining machine learning

RESEARCHarXiv CS.CL·21/04/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Este artigo oferece uma pesquisa abrangente sobre a mistura de dados para o pré-treinamento de Large Language Models (LLMs), um fator crucial para a eficiência do treinamento e a generalização posterior. Ele formaliza a otimização da mistura de dados como um problema de dois níveis e introduz uma taxonomia detalhada para os métodos existentes.

data optimization pretraining machine learning large language models

RESEARCHarXiv CS.LG·8d atrás

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn é um novo framework para previsão de séries temporais de alta dimensão escalável, superando as limitações dos modelos existentes ao aprender padrões de correlação universais. Ele utiliza um livro de códigos de protótipos latentes, superando significativamente arquiteturas de ponta em cenários de transferência few-shot.

forecasting pretraining deep learning machine learning