← heapsort-ai

Model Architecture

13 items

RESEARCHarXiv CS.LG·hace 1d

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

El artículo presenta WAV v1, un método ligero de enrutamiento residual multirresolución para Transformers solo con decodificador. Mejora las conexiones residuales estándar al aumentar cada bloque con bases de detalle direccionales que contrastan las actualizaciones de atención y MLP, y las dinámicas de subcapas tempranas y tardías.

60
ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026

Can Geometric Deep Learning lead eliminate the need of "Brute Force" pre-training [D]

El autor se pregunta si el Deep Learning Geométrico, al integrar simetrías e invarianzas directamente en su arquitectura, podría reducir o eliminar la necesidad del preentrenamiento "de fuerza bruta" con grandes volúmenes de datos. Esto sugiere que el preentrenamiento masivo actual podría deberse a la falta de invarianzas inherentes en las arquitecturas.

42
RESEARCHarXiv CS.LG·23/4/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

«Expert Upcycling» introduce un método para expandir progresivamente la capacidad de Mixture-of-Experts (MoE) en grandes modelos de lenguaje durante el pre-entrenamiento continuo. Aumenta el número de expertos mediante duplicación y extensión del enrutador para una inicialización optimizada, con el fin de reducir los costos de entrenamiento y mantener el costo de inferencia por token.

28
RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

27
RESEARCHarXiv CS.CL·hace 27d

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

El Modelo Bicameral acopla dos modelos de lenguaje preentrenados y congelados mediante una interfaz neuronal entrenable en sus estados ocultos intermedios, permitiéndoles operar en sincronía. Este método permite que un modelo principal dirija una tarea mientras un modelo auxiliar utiliza herramientas o resuelve restricciones, mejorando significativamente la precisión en tareas como la aritmética y los rompecabezas de lógica.

27