← heapsort-ai

AI Architectures

7 items

ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

El autor está pasando del ajuste fino de transformadores densos al Nemotron 3 Nano de NVIDIA (una arquitectura híbrida Mamba-Attention-MoE) para el razonamiento multi-tarea. Busca orientación sobre cómo la arquitectura híbrida afecta la receta estándar de ajuste fino LoRA, ya que su experiencia previa se limita a modelos densos.

42
RESEARCHarXiv CS.CL·hace 22d

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Este artículo presenta un análisis exhaustivo de los patrones de activación neural en seis arquitecturas distintas de modelos de lenguaje grandes (LLM), examinando su rendimiento en doce categorías de tareas cognitivas. Los hallazgos revelan diferencias fundamentales en cómo las arquitecturas de codificador y decodificador procesan diversas tareas cognitivas, con el razonamiento matemático produciendo la mayor entropía de atención y los modelos decodificadores mostrando una esparsidad significativamente mayor.

29
RESEARCHarXiv CS.CL·7/4/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

28
ARTICLEDEV.to AI·hace 27d

Beyond Basic RAG: The Rise of Agentic Retrieval

Este artículo explora las limitaciones de la Generación Aumentada por Recuperación (RAG) básica, como la sobrecarga de contexto y la persistencia de alucinaciones. Propone RAG Agente como una evolución, donde los LLMs orquestan autónomamente el proceso de recuperación de información, decidiendo cuándo y cómo buscar datos.

27
RESEARCHDEV.to AI·27/4/2026

An Attention Free Transformer

Este contenido introduce el concepto de un Transformer Libre de Atención, un nuevo diseño arquitectónico que busca replicar las capacidades de los Transformers tradicionales sin el mecanismo de autoatención. Probablemente explora mecanismos alternativos para el procesamiento de información contextual en tareas de secuencia a secuencia.

27
RESEARCHarXiv CS.AI·30/4/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Este trabajo desafía la suposición de que el razonamiento composicional emerge como subproducto del anclaje simbólico en la IA neuro-simbólica. Introduce la arquitectura $i$LTN, demostrando que los modelos entrenados únicamente con un objetivo de anclaje no logran generalizar, siendo crucial el entrenamiento conjunto con anclaje perceptual y razonamiento multi-paso.

27