pretraining

5 items

RESEARCH↑ trendingReddit r/LocalLLaMA·hace 27d

Efficient pretraining with token superposition by Nous Research

El contenido trata sobre la investigación de Nous Research acerca del preentrenamiento eficiente con superposición de tokens, una técnica innovadora para optimizar modelos de IA.

AI models pretraining machine learning

RESEARCHHugging Face Blog·hace 5d

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Este contenido aborda la generación de pares sintéticos de preguntas y respuestas, utilizados para el preentrenamiento de modelos de IA, específicamente Nemotron. La técnica busca mejorar el rendimiento del modelo mediante datos de entrenamiento artificiales.

synthetic data AI models pretraining Q&A generation

RESEARCHHugging Face Blog·8/5/2026

EMO: Pretraining mixture of experts for emergent modularity

EMO propone un enfoque de preentrenamiento para modelos Mixture of Experts (MoE), con el objetivo de lograr modularidad emergente. Este método se centra en el desarrollo de componentes especializados dentro del modelo durante la fase de preentrenamiento.

Emergent Modularity AI models pretraining machine learning

RESEARCHarXiv CS.CL·21/4/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Este artículo presenta una encuesta exhaustiva sobre la mezcla de datos para el preentrenamiento de Large Language Models (LLMs), un factor crucial para la eficiencia del entrenamiento y la generalización posterior. Formaliza la optimización de la mezcla de datos como un problema de dos niveles e introduce una taxonomía detallada para los métodos existentes.

data optimization pretraining machine learning large language models

RESEARCHarXiv CS.LG·hace 8d

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn es un nuevo framework para la previsión escalable de series temporales de alta dimensión, que supera la dicotomía entre modelos dependientes e independientes del canal. Utiliza un libro de códigos de prototipos latentes para aprender patrones de correlación universales, superando significativamente las arquitecturas de vanguardia en escenarios de transferencia de pocos ejemplos.

forecasting pretraining deep learning machine learning