← heapsort-ai

AI Architectures

7 items

ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

L'auteur passe du réglage fin de transformateurs denses au Nemotron 3 Nano de NVIDIA (une architecture hybride Mamba-Attention-MoE) pour le raisonnement multi-tâches. Il cherche des conseils sur la manière dont l'architecture hybride impacte la recette standard de réglage fin LoRA, son expérience antérieure étant limitée aux modèles denses.

42
RESEARCHarXiv CS.CL·il y a 22j

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Cet article présente une analyse complète des schémas d'activation neuronale à travers six architectures distinctes de grands modèles de langage (LLM), examinant leurs performances sur douze catégories de tâches cognitives. Les résultats révèlent des différences fondamentales dans la manière dont les architectures d'encodeur et de décodeur traitent diverses tâches cognitives, le raisonnement mathématique produisant la plus haute entropie d'attention et les modèles décodeurs présentant une parcimonie significativement plus élevée.

29
RESEARCHarXiv CS.CL·07/04/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

28
ARTICLEDEV.to AI·il y a 27j

Beyond Basic RAG: The Rise of Agentic Retrieval

Cet article explore les limites de la Génération Augmentée par Récupération (RAG) de base, telles que l'encombrement du contexte et la persistance des hallucinations. Il propose le RAG Agentique comme une évolution, où les LLM orchestrent de manière autonome le processus de récupération d'informations, décidant quand et comment rechercher des données.

27
RESEARCHDEV.to AI·27/04/2026

An Attention Free Transformer

Ce contenu présente le concept d'un Transformer sans attention, une nouvelle conception architecturale visant à reproduire les capacités des Transformers traditionnels sans le mécanisme d'auto-attention. Il explore probablement des mécanismes alternatifs pour le traitement des informations contextuelles dans les tâches de séquence à séquence.

27
RESEARCHarXiv CS.AI·30/04/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Ce travail remet en question l'hypothèse selon laquelle le raisonnement compositionnel émerge comme un sous-produit de l'ancrage symbolique dans l'IA neuro-symbolique. Il introduit l'architecture $i$LTN, montrant que les modèles entraînés uniquement sur un objectif d'ancrage échouent à généraliser, tandis qu'un entraînement conjoint sur l'ancrage perceptuel et le raisonnement multi-étapes est crucial.

27