AI Architectures

7 items

ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

Der Autor wechselt vom Fine-Tuning dichter Transformer zu NVIDIAs Nemotron 3 Nano (einer Hybrid Mamba-Attention-MoE Architektur) für Multi-Task-Reasoning. Er sucht Ratschläge, wie sich die Hybridarchitektur auf das Standard-LoRA-Fine-Tuning auswirkt, da seine bisherige Erfahrung auf dichte Modelle beschränkt ist.

LLMs multi-task reasoning AI Architectures Fine-tuning

ARTICLEDEV.to AI·4/11/2026

A Review of Sparse Expert Models in Deep Learning

Dieser Inhalt analysiert Sparse Expert Models im Deep Learning, eine fundamentale Architektur für die Skalierbarkeit und Effizienz großer neuronaler Netze. Die Untersuchung beleuchtet deren Anwendung und Auswirkungen im Bereich der fortgeschrittenen künstlichen Intelligenz.

neural networks deep learning Sparse Models AI Architectures

RESEARCHarXiv CS.CL·vor 22T

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Dieses Papier präsentiert eine umfassende Analyse neuronaler Aktivierungsmuster in sechs verschiedenen Architekturen großer Sprachmodelle (LLM), wobei deren Leistung bei zwölf kognitiven Aufgabenkategorien untersucht wird. Die Ergebnisse offenbaren grundlegende Unterschiede in der Verarbeitung vielfältiger kognitiver Aufgaben durch Encoder- und Decoder-Architekturen, wobei mathematisches Denken die höchste Aufmerksamkeitsentropie erzeugt und Decoder-Modelle signifikant höhere Sparsity aufweisen.

neural networks language models cognitive science Model Analysis

RESEARCHarXiv CS.CL·4/7/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context attention mechanisms

ARTICLEDEV.to AI·vor 27T

Beyond Basic RAG: The Rise of Agentic Retrieval

Dieser Artikel untersucht die Grenzen der einfachen Retrieval-Augmented Generation (RAG, Abrufgestützte Generierung), wie Kontextüberflutung und anhaltende Halluzinationen. Er schlägt Agentic RAG als Weiterentwicklung vor, bei der LLMs den Informationsabrufprozess autonom orchestrieren und entscheiden, wann und wie Daten gesucht werden sollen.

LLMs RAG AI Architectures Agentic AI

RESEARCHDEV.to AI·4/27/2026

An Attention Free Transformer

Dieser Inhalt stellt das Konzept eines aufmerksamkeitsfreien Transformers vor, ein neuartiges Architekturdesign, das darauf abzielt, die Fähigkeiten herkömmlicher Transformer ohne den Selbstaufmerksamkeitsmechanismus zu erreichen. Es werden wahrscheinlich alternative Mechanismen zur Verarbeitung kontextbezogener Informationen in Sequenz-zu-Sequenz-Aufgaben untersucht.

neural networks deep learning AI Architectures Transformers

RESEARCHarXiv CS.AI·4/30/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Diese Arbeit stellt die Annahme in Frage, dass kompositorisches Denken als Nebenprodukt der Symbolfundierung in neuro-symbolischen KI entsteht. Sie führt die $i$LTN-Architektur ein und zeigt, dass Modelle, die nur auf Fundierung trainiert wurden, nicht generalisieren, während ein gemeinsames Training auf Wahrnehmungsfundierung und mehrstufiges Schlussfolgern entscheidend ist.

Compositional Generalization Reasoning AI Architectures Symbol Grounding