AI Architectures

7 items

ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

El autor está pasando del ajuste fino de transformadores densos al Nemotron 3 Nano de NVIDIA (una arquitectura híbrida Mamba-Attention-MoE) para el razonamiento multi-tarea. Busca orientación sobre cómo la arquitectura híbrida afecta la receta estándar de ajuste fino LoRA, ya que su experiencia previa se limita a modelos densos.

LLMs multi-task reasoning AI Architectures Fine-tuning

ARTICLEDEV.to AI·11/4/2026

A Review of Sparse Expert Models in Deep Learning

Este contenido analiza los Modelos de Expertos Escasos en Deep Learning, una arquitectura fundamental para la escalabilidad y eficiencia de grandes redes neuronales. La revisión explora su aplicación e impacto en el campo de la inteligencia artificial avanzada.

neural networks deep learning Sparse Models AI Architectures

RESEARCHarXiv CS.CL·hace 22d

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Este artículo presenta un análisis exhaustivo de los patrones de activación neural en seis arquitecturas distintas de modelos de lenguaje grandes (LLM), examinando su rendimiento en doce categorías de tareas cognitivas. Los hallazgos revelan diferencias fundamentales en cómo las arquitecturas de codificador y decodificador procesan diversas tareas cognitivas, con el razonamiento matemático produciendo la mayor entropía de atención y los modelos decodificadores mostrando una esparsidad significativamente mayor.

neural networks language models cognitive science Model Analysis

RESEARCHarXiv CS.CL·7/4/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context attention mechanisms

ARTICLEDEV.to AI·hace 27d

Beyond Basic RAG: The Rise of Agentic Retrieval

Este artículo explora las limitaciones de la Generación Aumentada por Recuperación (RAG) básica, como la sobrecarga de contexto y la persistencia de alucinaciones. Propone RAG Agente como una evolución, donde los LLMs orquestan autónomamente el proceso de recuperación de información, decidiendo cuándo y cómo buscar datos.

LLMs RAG AI Architectures Agentic AI

RESEARCHDEV.to AI·27/4/2026

An Attention Free Transformer

Este contenido introduce el concepto de un Transformer Libre de Atención, un nuevo diseño arquitectónico que busca replicar las capacidades de los Transformers tradicionales sin el mecanismo de autoatención. Probablemente explora mecanismos alternativos para el procesamiento de información contextual en tareas de secuencia a secuencia.

neural networks deep learning AI Architectures Transformers

RESEARCHarXiv CS.AI·30/4/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Este trabajo desafía la suposición de que el razonamiento composicional emerge como subproducto del anclaje simbólico en la IA neuro-simbólica. Introduce la arquitectura $i$LTN, demostrando que los modelos entrenados únicamente con un objetivo de anclaje no logran generalizar, siendo crucial el entrenamiento conjunto con anclaje perceptual y razonamiento multi-paso.

Compositional Generalization Reasoning AI Architectures Symbol Grounding