Model Architecture

13 items

RESEARCHarXiv CS.LG·hace 1d

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

El artículo presenta WAV v1, un método ligero de enrutamiento residual multirresolución para Transformers solo con decodificador. Mejora las conexiones residuales estándar al aumentar cada bloque con bases de detalle direccionales que contrastan las actualizaciones de atención y MLP, y las dinámicas de subcapas tempranas y tardías.

Residual Connections neural networks deep learning Model Architecture

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Forgive my ignorance but how is a 27B model better than 397B?

Un usuario expresa confusión sobre cómo un modelo denso de 27B puede ser superior a un modelo MoE de 397B, mencionando Qwen, y cuestiona la utilidad de los expertos adicionales.

AI models Model Architecture MoE Qwen

Forgive my ignorance but how is a 27B model better than 397B?

NEWS↑ trendingReddit r/LocalLLaMA·7/5/2026

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

El contenido anuncia la adición de soporte para el modelo MiMo v2.5 en llama.cpp y describe su arquitectura. MiMo v2.5 es un modelo Sparse MoE con 310B de parámetros totales y 15B activados, que soporta modalidades de texto, imagen, video y audio con una impresionante longitud de contexto.

multimodal AI Model Architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026

Can Geometric Deep Learning lead eliminate the need of "Brute Force" pre-training [D]

El autor se pregunta si el Deep Learning Geométrico, al integrar simetrías e invarianzas directamente en su arquitectura, podría reducir o eliminar la necesidad del preentrenamiento "de fuerza bruta" con grandes volúmenes de datos. Esto sugiere que el preentrenamiento masivo actual podría deberse a la falta de invarianzas inherentes en las arquitecturas.

pre-training Symmetry Model Architecture Geometric Deep Learning

ARTICLE↑ trendingReddit r/LocalLLaMA·11/4/2026

If Dense Models are better for Coding, why are Qwen-Coders MoE?

El autor cuestiona la decisión de Qwen de usar la arquitectura Mixture-of-Experts (MoE) para sus modelos de codificación, en lugar de modelos densos más precisos. Especula que la elección podría estar ligada a la velocidad de inferencia y lamenta la ausencia de un sucesor de 14B.

Model Architecture coding AI MoE AI

RESEARCHarXiv CS.LG·23/4/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

«Expert Upcycling» introduce un método para expandir progresivamente la capacidad de Mixture-of-Experts (MoE) en grandes modelos de lenguaje durante el pre-entrenamiento continuo. Aumenta el número de expertos mediante duplicación y extensión del enrutador para una inicialización optimizada, con el fin de reducir los costos de entrenamiento y mantener el costo de inferencia por token.

Model Architecture training-optimization large language models

RESEARCHDEV.to AI·23/4/2026

qwen3.6-27b scores 77.2% on SWE-bench. the dense model is winning against MoE.

El modelo denso Qwen3.6-27B superó al modelo MoE Qwen3.6-35B-A3B en SWE-bench, obteniendo un 77.2% frente a un 73.4%. Esto sugiere que los modelos densos podrían ser más efectivos para tareas de ingeniería de software reales.

AI models Model Architecture Benchmarks MoE

ARTICLEDEV.to AI·26/4/2026

DeepSeek V4: Million-Token Context That Actually Works

DeepSeek V4 ofrece un contexto de 1 millón de tokens que es realmente utilizable, resolviendo el problema de memoria de la GPU con una arquitectura de atención híbrida que comprime el caché KV en casi 9x. Esto lo convierte en una solución práctica para la inferencia de contexto largo, a diferencia de muchos otros modelos.

DeepSeek AI models Model Architecture large language models

RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.CL·hace 27d

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

El Modelo Bicameral acopla dos modelos de lenguaje preentrenados y congelados mediante una interfaz neuronal entrenable en sus estados ocultos intermedios, permitiéndoles operar en sincronía. Este método permite que un modelo principal dirija una tarea mientras un modelo auxiliar utiliza herramientas o resuelve restricciones, mejorando significativamente la precisión en tareas como la aritmética y los rompecabezas de lógica.

neural networks language models AI models Model Architecture

RESEARCHAI at Meta (YouTube)·8/12/2025

SAM 3: Building a unified model architecture for detection and tracking

SAM 3 se centra en la construcción de una arquitectura de modelo unificada para tareas de detección y seguimiento. Su objetivo es mejorar la eficiencia y la precisión en aplicaciones de visión por computadora.

Model Architecture object detection machine learning computer vision

SAM 3: Building a unified model architecture for detection and tracking

ARTICLEAI at Meta (YouTube)·20/11/2025

SAM 3D: Behind the two-model design | AI at Meta

Este artículo explora el diseño de dos modelos detrás de SAM 3D, una iniciativa de inteligencia artificial de Meta. Detalla la arquitectura y la lógica de ingeniería detrás de este sistema de IA.

AI models SAM 3D Model Architecture Meta AI

SAM 3D: Behind the two-model design | AI at Meta

NEWSDEV.to AI·hace 17d

Topology rewrite not bug repair

La reescritura de la topología de un sistema o modelo de IA es una reformulación fundamental, no solo una corrección de errores. Se compartirán más detalles sobre este desarrollo a medida que la construcción madure.

topology Model Architecture Software Engineering bug fix