deep learning

263 items

ARTICLEDEV.to AI·4/19/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Dieser Artikel beleuchtet die Grenzen von LSTMs beim Beibehalten des Kontexts, trotz ihrer verbesserten Gedächtnisfähigkeiten im Vergleich zu einfachen RNNs. Der Autor nutzt eine persönliche Erfahrung beim Englischlernen, um drei spezifische Probleme zu veranschaulichen, die LSTMs immer noch nicht lösen, und ebnet damit den Weg für die Diskussion von Aufmerksamkeitsmechanismen.

deep learning Attention Mechanisms Natural Language Processing

RESEARCHDEV.to AI·vor 24T

Deep Neural Networks for Survival Analysis Based on a Multi-Task Framework

Diese Forschung untersucht die Anwendung tiefer neuronaler Netze in der Überlebenszeitanalyse unter Verwendung eines Multi-Task-Frameworks. Der Ansatz zielt darauf ab, die Vorhersage und Modellierung von Zeit-bis-Ereignis-Daten durch die Nutzung komplexer neuronaler Netzwerkarchitekturen zu verbessern.

neural networks multi-task learning deep learning survival analysis

RESEARCHDEV.to AI·5/10/2026

Neural Language Correction with Character-Based Attention

Diese Forschung stellt einen neuartigen Ansatz zur neuronalen Sprachkorrektur vor, der auf zeichenbasierten Aufmerksamkeitsmechanismen basiert. Die Methode zielt darauf ab, die Genauigkeit und Robustheit der automatischen Korrektur grammatischer und Rechtschreibfehler in Texten zu verbessern.

neural networks deep learning Attention Mechanisms Natural Language Processing

RESEARCHDEV.to AI·4/27/2026

An Attention Free Transformer

Dieser Inhalt stellt das Konzept eines aufmerksamkeitsfreien Transformers vor, ein neuartiges Architekturdesign, das darauf abzielt, die Fähigkeiten herkömmlicher Transformer ohne den Selbstaufmerksamkeitsmechanismus zu erreichen. Es werden wahrscheinlich alternative Mechanismen zur Verarbeitung kontextbezogener Informationen in Sequenz-zu-Sequenz-Aufgaben untersucht.

neural networks deep learning AI Architectures Transformers

RESEARCHarXiv CS.LG·4/15/2026

Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids

Diese Forschung stellt das Thermodynamic Liquid Manifold Network (TLMN) vor, ein physikbasiertes Deep-Learning-Modell zur Solarprognose in autonomen, netzunabhängigen Mikrogrids. Es löst kritische Anomalien in zeitgenössischen Deep-Learning-Modellen durch die Integration von atmosphärischer Thermodynamik und Himmelsmechanik, um physikalisch unmögliche Vorhersagen zu verhindern.

microgrids deep learning Solar Forecasting Thermodynamics

RESEARCHarXiv CS.LG·4/15/2026

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Dieses Paper schlägt ein neuartiges Bootstrap-basiertes Framework zur Unsicherheitsquantifizierung (UQ) in Convolutional Neural Networks (CNNs) vor, das den Mangel an theoretisch konsistenten UQ-Tools adressiert. Die Methode nutzt konvexifizierte neuronale Netze, um theoretische Konsistenz zu etablieren, bietet eine deutlich geringere Rechenlast und erforscht einen neuartigen Transfer-Learning-Ansatz.

Theoretical Consistency Bootstrap deep learning uncertainty quantification

RESEARCHarXiv CS.AI·4/25/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Diese Arbeit stellt ein innovatives Framework für die adaptive Berechnung von Testzeiten vor, das gemeinsam anpasst, wo die Berechnung aufgewendet und wie die Generierung durchgeführt wird. Die Methode verwendet eine Aufwärmphase, um einfache Anfragen zu identifizieren, und konzentriert dann weitere Berechnungen auf ungelöste Anfragen, indem sie Generierungsverteilungen mit sich entwickelnden In-Context-Demonstrationen neu gestaltet.

deep learning Machine Learning in-context learning AI

RESEARCHarXiv CS.LG·4/28/2026

AutoCompress: Critical Layer Isolation for Efficient Transformer Compression

AutoCompress ist eine Transformer-Kompressionsmethode, die Layer 0 als kritisch isoliert und in voller Dimensionalität schützt. Bei GPT-2 Medium erreicht CLI-GPT2 eine 2,47-fache Kompression und 59,5 % Parameterreduktion bei deutlich besserer Leistung als ein gleichmäßiger Baseline-Ansatz.

AI architecture model efficiency deep learning GPT-2

RESEARCHarXiv CS.LG·5/5/2026

Fast Log-Domain Sinkhorn Optimal Transport with Warp-Level GPU Reductions

Dieses Papier stellt FastSinkhorn vor, eine native CUDA-Implementierung des Log-Domain-Sinkhorn-Algorithmus, die schnellere und stabilere Lösungen für optimale Transportprobleme (OT) liefert. Es erreicht eine 12-fache Beschleunigung gegenüber der POT-Bibliothek und eine 5,9-fache Beschleunigung gegenüber GPU-beschleunigten PyTorch-Baselines, während die numerische Stabilität für kleine Regularisierungsparameter erhalten bleibt.

GPU computing deep learning Sinkhorn Algorithm Numerical Stability

RESEARCHarXiv CS.CL·5/1/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Dieses Papier stellt das Length Value Model (LenVM) vor, ein neuartiges Token-Level-Framework zur Modellierung der verbleibenden Generierungslänge in autoregressiven Modellen. Durch die Formulierung der Längenmodellierung als Wertschätzungsproblem liefert LenVM ein annotationsfreies, skalierbares und effektives Signal für LLMs und VLMs, das die Leistung bei Aufgaben mit exakter Längenübereinstimmung verbessert.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.LG·4/27/2026

LTBs-KAN: Linear-Time B-splines Kolmogorov-Arnold Networks

LTBs-KAN ist eine neuartige neuronale Netzwerkarchitektur, die die Langsamkeit herkömmlicher KANs überwindet, indem sie lineare Komplexität und Parameterreduktion bietet. Die Studie zeigt signifikante Verbesserungen der Recheneffizienz und Parameterreduktion bei Datensätzen wie MNIST, Fashion-MNIST und CIFAR-10.

neural networks B-splines deep learning Computational Efficiency

RESEARCHarXiv CS.LG·5/1/2026

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Maskierte Diffusionsmodelle (MDMs) verwerfen Vorhersagen für Token, die maskiert bleiben, was die Verfeinerung über Schritte hinweg einschränkt. Dieses Papier schlägt selbstkonditionierte maskierte Diffusionsmodelle (SCMDM) vor, eine Post-Training-Anpassung, die jeden Denoising-Schritt auf die vorherigen Klartext-Vorhersagen des Modells konditioniert. Dies verbessert die Leistung ohne größere architektonische Änderungen oder zusätzliche Evaluierungen.

Diffusion Models model adaptation deep learning Machine Learning

RESEARCHarXiv CS.LG·4/27/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Diese Studie untersucht die Notwendigkeit von gelernten Speicher-Tokens als Berechnungskladde für Universal Transformers mit adaptiver Berechnungszeit (ACT) auf einem kombinatorischen Denk-Benchmark. Sie zeigt, dass Speicher-Tokens empirisch notwendig für eine nicht-triviale Leistung sind und identifiziert eine scharfe untere Schwelle für die optimale Anzahl sowie eine häufige Router-Initialisierungsfalle.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·5/8/2026

Are Flat Minima an Illusion?

Dieser Artikel stellt die konventionelle Ansicht in Frage, dass flache Minima inhärent zu besserer Generalisierung führen, indem er zeigt, dass funktionserhaltende Reparameterisierung die wahrgenommene Schärfe eines Minimums drastisch verändern kann. Er führt „Schwäche“ ein – ein reparameterisierungsinvariantes Maß, das auf dem basiert, was das Netzwerk tut – als den eigentlichen Treiber der Generalisierung und beweist dessen Minimax-Optimalität und Korrelation mit PAC-Bayes-Grenzen.

neural networks Optimization Generalization Machine Learning Theory

RESEARCHDEV.to AI·4/8/2026

Neural Models for Information Retrieval

Este conteúdo aborda o uso de modelos neurais para aprimorar os sistemas de recuperação de informação. Explora como a inteligência artificial pode otimizar a busca e organização de grandes volumes de dados.

neural networks deep learning Machine Learning Information Retrieval

RESEARCHarXiv CS.LG·4/16/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Diese Arbeit identifiziert die normalisierte spektrale Entropie als skalaren Ordnungsparameter für den Grokking-Übergang, bei dem Modelle lange nach dem Auswendiglernen verallgemeinern. Die Forschung zeigt, dass der Entropiekollaps der Generalisierung vorausgeht, und kausale Interventionen bestätigen deren kritische Rolle, was ein prädiktives Modell für den Beginn des Grokking liefert.

neural networks grokking Generalization deep learning

RESEARCHarXiv CS.LG·4/8/2026

El Nino Prediction Based on Weather Forecast and Geographical Time-series Data

Este artigo propõe um novo framework para aprimorar a previsão de eventos El Niño, integrando dados de previsão do tempo e geográficos. Ele utiliza uma arquitetura híbrida de deep learning, combinando CNN para extração espacial e LSTM para modelagem temporal, visando identificar precursores complexos.

CNN deep learning Weather Forecasting El Nino Prediction

RESEARCHarXiv CS.LG·4/17/2026

Towards Verified and Targeted Explanations through Formal Methods

Dieses Papier stellt ViTaX vor, ein formales XAI-Framework, das zur Generierung zielgerichteter semifaktischer Erklärungen mit mathematischen Garantien entwickelt wurde. Es behebt die Mängel bestehender XAI-Methoden bei der Bereitstellung vertrauenswürdiger Erklärungen für tiefe neuronale Netze in sicherheitskritischen Bereichen wie autonomes Fahren und medizinische Diagnose.

deep learning formal methods Explainable AI Safety-Critical Systems

RESEARCHarXiv CS.CL·4/17/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Diese Forschung untersucht, ob Große Sprachmodelle (LLMs) methodologische Mängel, wie Datenlecks, in veröffentlichten maschinellen Lernstudien identifizieren können. Eine Fallstudie zeigte, dass sechs hochmoderne LLMs konsistent Bewertungsfehler in einem Paper zur Gestenerkennung aufgrund nicht-unabhängiger Datenpartitionierung aufdeckten.

deep learning Machine Learning large language models AI evaluation

RESEARCHarXiv CS.CL·vor 20T

Pseudo-Siamese Network for Planning in Target-Oriented Proactive Dialogues

Die Arbeit schlägt ein vorwärtsgerichtetes bidirektionales Pseudo-Siamese-Netzwerk (FF-BPSN) für die Dialogpfadplanung in zielorientierten proaktiven Dialogsystemen vor. Dieses Netzwerk verwendet identische Transformatoren-basierte Decoder für die bidirektionale Planung und integriert Informationen, um einen Vorwärtspfad zu konstruieren, der Sprachmodelle bei der Antwortgenerierung leitet.

transformer networks deep learning NLP AI