← heapsort-ai

deep learning

263 items

ARTICLEDEV.to AI·4/19/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Dieser Artikel beleuchtet die Grenzen von LSTMs beim Beibehalten des Kontexts, trotz ihrer verbesserten Gedächtnisfähigkeiten im Vergleich zu einfachen RNNs. Der Autor nutzt eine persönliche Erfahrung beim Englischlernen, um drei spezifische Probleme zu veranschaulichen, die LSTMs immer noch nicht lösen, und ebnet damit den Weg für die Diskussion von Aufmerksamkeitsmechanismen.

27
RESEARCHDEV.to AI·4/27/2026

An Attention Free Transformer

Dieser Inhalt stellt das Konzept eines aufmerksamkeitsfreien Transformers vor, ein neuartiges Architekturdesign, das darauf abzielt, die Fähigkeiten herkömmlicher Transformer ohne den Selbstaufmerksamkeitsmechanismus zu erreichen. Es werden wahrscheinlich alternative Mechanismen zur Verarbeitung kontextbezogener Informationen in Sequenz-zu-Sequenz-Aufgaben untersucht.

27
RESEARCHarXiv CS.LG·4/15/2026

Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids

Diese Forschung stellt das Thermodynamic Liquid Manifold Network (TLMN) vor, ein physikbasiertes Deep-Learning-Modell zur Solarprognose in autonomen, netzunabhängigen Mikrogrids. Es löst kritische Anomalien in zeitgenössischen Deep-Learning-Modellen durch die Integration von atmosphärischer Thermodynamik und Himmelsmechanik, um physikalisch unmögliche Vorhersagen zu verhindern.

27
RESEARCHarXiv CS.LG·4/15/2026

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Dieses Paper schlägt ein neuartiges Bootstrap-basiertes Framework zur Unsicherheitsquantifizierung (UQ) in Convolutional Neural Networks (CNNs) vor, das den Mangel an theoretisch konsistenten UQ-Tools adressiert. Die Methode nutzt konvexifizierte neuronale Netze, um theoretische Konsistenz zu etablieren, bietet eine deutlich geringere Rechenlast und erforscht einen neuartigen Transfer-Learning-Ansatz.

27
RESEARCHarXiv CS.AI·4/25/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Diese Arbeit stellt ein innovatives Framework für die adaptive Berechnung von Testzeiten vor, das gemeinsam anpasst, wo die Berechnung aufgewendet und wie die Generierung durchgeführt wird. Die Methode verwendet eine Aufwärmphase, um einfache Anfragen zu identifizieren, und konzentriert dann weitere Berechnungen auf ungelöste Anfragen, indem sie Generierungsverteilungen mit sich entwickelnden In-Context-Demonstrationen neu gestaltet.

27
RESEARCHarXiv CS.LG·5/5/2026

Fast Log-Domain Sinkhorn Optimal Transport with Warp-Level GPU Reductions

Dieses Papier stellt FastSinkhorn vor, eine native CUDA-Implementierung des Log-Domain-Sinkhorn-Algorithmus, die schnellere und stabilere Lösungen für optimale Transportprobleme (OT) liefert. Es erreicht eine 12-fache Beschleunigung gegenüber der POT-Bibliothek und eine 5,9-fache Beschleunigung gegenüber GPU-beschleunigten PyTorch-Baselines, während die numerische Stabilität für kleine Regularisierungsparameter erhalten bleibt.

27
RESEARCHarXiv CS.CL·5/1/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Dieses Papier stellt das Length Value Model (LenVM) vor, ein neuartiges Token-Level-Framework zur Modellierung der verbleibenden Generierungslänge in autoregressiven Modellen. Durch die Formulierung der Längenmodellierung als Wertschätzungsproblem liefert LenVM ein annotationsfreies, skalierbares und effektives Signal für LLMs und VLMs, das die Leistung bei Aufgaben mit exakter Längenübereinstimmung verbessert.

27
RESEARCHarXiv CS.LG·5/1/2026

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Maskierte Diffusionsmodelle (MDMs) verwerfen Vorhersagen für Token, die maskiert bleiben, was die Verfeinerung über Schritte hinweg einschränkt. Dieses Papier schlägt selbstkonditionierte maskierte Diffusionsmodelle (SCMDM) vor, eine Post-Training-Anpassung, die jeden Denoising-Schritt auf die vorherigen Klartext-Vorhersagen des Modells konditioniert. Dies verbessert die Leistung ohne größere architektonische Änderungen oder zusätzliche Evaluierungen.

27
RESEARCHarXiv CS.LG·4/27/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Diese Studie untersucht die Notwendigkeit von gelernten Speicher-Tokens als Berechnungskladde für Universal Transformers mit adaptiver Berechnungszeit (ACT) auf einem kombinatorischen Denk-Benchmark. Sie zeigt, dass Speicher-Tokens empirisch notwendig für eine nicht-triviale Leistung sind und identifiziert eine scharfe untere Schwelle für die optimale Anzahl sowie eine häufige Router-Initialisierungsfalle.

27
RESEARCHarXiv CS.LG·5/8/2026

Are Flat Minima an Illusion?

Dieser Artikel stellt die konventionelle Ansicht in Frage, dass flache Minima inhärent zu besserer Generalisierung führen, indem er zeigt, dass funktionserhaltende Reparameterisierung die wahrgenommene Schärfe eines Minimums drastisch verändern kann. Er führt „Schwäche“ ein – ein reparameterisierungsinvariantes Maß, das auf dem basiert, was das Netzwerk tut – als den eigentlichen Treiber der Generalisierung und beweist dessen Minimax-Optimalität und Korrelation mit PAC-Bayes-Grenzen.

27
RESEARCHarXiv CS.LG·4/16/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Diese Arbeit identifiziert die normalisierte spektrale Entropie als skalaren Ordnungsparameter für den Grokking-Übergang, bei dem Modelle lange nach dem Auswendiglernen verallgemeinern. Die Forschung zeigt, dass der Entropiekollaps der Generalisierung vorausgeht, und kausale Interventionen bestätigen deren kritische Rolle, was ein prädiktives Modell für den Beginn des Grokking liefert.

27
RESEARCHarXiv CS.LG·4/17/2026

Towards Verified and Targeted Explanations through Formal Methods

Dieses Papier stellt ViTaX vor, ein formales XAI-Framework, das zur Generierung zielgerichteter semifaktischer Erklärungen mit mathematischen Garantien entwickelt wurde. Es behebt die Mängel bestehender XAI-Methoden bei der Bereitstellung vertrauenswürdiger Erklärungen für tiefe neuronale Netze in sicherheitskritischen Bereichen wie autonomes Fahren und medizinische Diagnose.

27
RESEARCHarXiv CS.CL·4/17/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Diese Forschung untersucht, ob Große Sprachmodelle (LLMs) methodologische Mängel, wie Datenlecks, in veröffentlichten maschinellen Lernstudien identifizieren können. Eine Fallstudie zeigte, dass sechs hochmoderne LLMs konsistent Bewertungsfehler in einem Paper zur Gestenerkennung aufgrund nicht-unabhängiger Datenpartitionierung aufdeckten.

27
RESEARCHarXiv CS.CL·vor 20T

Pseudo-Siamese Network for Planning in Target-Oriented Proactive Dialogues

Die Arbeit schlägt ein vorwärtsgerichtetes bidirektionales Pseudo-Siamese-Netzwerk (FF-BPSN) für die Dialogpfadplanung in zielorientierten proaktiven Dialogsystemen vor. Dieses Netzwerk verwendet identische Transformatoren-basierte Decoder für die bidirektionale Planung und integriert Informationen, um einen Vorwärtspfad zu konstruieren, der Sprachmodelle bei der Antwortgenerierung leitet.

27