deep learning

263 items

RESEARCHarXiv CS.LG·5/8/2026

Adaptive Computation Depth via Learned Token Routing in Transformers

Dieses Papier stellt Token-Selective Attention (TSA) vor, einen Mechanismus für Transformer-Architekturen, der eine adaptive Berechnungstiefe pro Token ermöglicht. TSA lernt, Tokens basierend auf kontextueller Schwierigkeit zu leiten und spart 14-23 % der Token-Layer-Operationen bei minimalem Qualitätsverlust.

neural networks deep learning machine learning efficiency

RESEARCHarXiv CS.LG·4/21/2026

Preventing overfitting in deep learning using differential privacy

Diese Forschung untersucht einen Ansatz, der auf differentieller Privatsphäre basiert, um die Generalisierung zu verbessern und Overfitting in tiefen neuronalen Netzen zu verhindern. Overfitting, bei dem Modelle Rauschen lernen und auf ungesehenen Daten schlecht abschneiden, ist eine wachsende Herausforderung in modernen KI-Systemen.

Differential Privacy Generalization privacy deep learning

RESEARCHarXiv CS.CL·4/21/2026

Brain-CLIPLM: Decoding Compressed Semantic Representations in EEG for Language Reconstruction

Diese Arbeit schlägt eine semantische Kompressionshypothese vor, um Einschränkungen bei der EEG-zu-Text-Dekodierung zu überwinden, indem sie annimmt, dass EEG-Signale komprimierte semantische Anker und nicht die vollständige Sprachstruktur kodieren. Es wird Brain-CLIPLM vorgestellt, ein zweistufiges Framework zur Extraktion semantischer Anker mittels kontrastivem Lernen und zur Satzrekonstruktion mithilfe eines retrieval-basierten großen Sprachmodells.

Brain-Computer Interface (BCI)deep learning machine learning Natural Language Processing (NLP)

RESEARCHarXiv CS.LG·5/4/2026

Cloud Is Closer Than It Appears: Revisiting the Tradeoffs of Distributed Real-Time Inference

Diese Arbeit untersucht die Machbarkeit von Cloud-basierter Inferenz für latenzempfindliche cyber-physikalische Systeme neu und stellt die Annahme in Frage, dass die lokale Verarbeitung stets überlegen ist. Sie zeigt, dass Cloud-Plattformen mit hohem Durchsatz die Leistung von On-Device-Systemen für Echtzeit-Steuerungsaufgaben erreichen oder übertreffen können, indem sie Netzwerk- und Warteschlangenverzögerungen amortisieren.

deep learning cloud computing distributed systems edge computing

RESEARCHarXiv CS.LG·5/7/2026

Continual Distillation of Teachers from Different Domains

Diese Forschung stellt Continual Distillation (CD) vor, ein neues Paradigma, bei dem ein Schülermodell sequenziell von einem Strom von Lehrmodellen lernt, ohne frühere Lehrer beizubehalten. Es adressiert Herausforderungen wie den Transfer (UKT) und das Vergessen (UKF) von ungesehenem Wissen mittels Self External Data Distillation (SE2D), das unbeschriftete externe Daten verwendet, um das Lernen über heterogene Lehrer hinweg zu stabilisieren.

Knowledge Distillation deep learning learning Continual Learning

RESEARCHarXiv CS.LG·4/21/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Diese Arbeit stellt BASIS vor, einen effizienten Backpropagation-Algorithmus, der den O(L * BN) räumlichen Speicherengpass in tiefen neuronalen Netzen adressiert. Er entkoppelt den Aktivierungsspeicher vollständig von Batch- und Sequenzdimensionen, bewahrt exakte Fehlersignale, während er Gewichtsaktualisierungen mit stark komprimierten Tensoren berechnet, und schlägt neue Mechanismen zur Stabilisierung von Gradienten vor.

neural networks deep learning Memory Optimization backpropagation

RESEARCHarXiv CS.LG·vor 29T

Feature Repulsion and Spectral Lock-in: An Empirical Study of Two-Layer Network Grokking

Diese empirische Studie untersucht Tian's (2025) Repulsions-Theorem für Merkmale im Grokking von zweischichtigen Netzwerken. Sie beobachtet eine klare Struktur-Mechanismus-Dissoziation, wobei die vorhergesagte Zeichenregel bei ähnlichen Merkmals-Paaren robust gültig ist.

neural networks feature learning grokking deep learning

RESEARCHarXiv CS.LG·vor 8T

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Hoeffding Concept Bottleneck Modelle (HCBM) werden vorgestellt, um nicht-lineare und sparse Aggregationen von Konzept-Scores zu liefern, die die Erklärbarkeit und Genauigkeit von Deep-Learning-Vorhersagen verbessern. Diese Methode nutzt die Hoeffding-Funktionszerlegung von gradientenverstärkten Bäumen, um die Einschränkungen bestehender linearer CBMs zu überwinden, die unter einer großen Anzahl von Konzepten und potenziellen Informationslecks leiden.

deep learning machine learning computer vision Explainable AI

RESEARCHarXiv CS.AI·vor 25T

Conditional Attribute Estimation with Autoregressive Sequence Models

Diese Forschung stellt Conditional Attribute Transformers vor, eine neuartige Methode zur gleichzeitigen Schätzung der Wahrscheinlichkeit des nächsten Tokens und des Werts eines Attributs, bedingt durch jede potenzielle Auswahl des nächsten Tokens. Dieser Rahmen ermöglicht wichtige Funktionen wie die Zuweisung von Token-Credits und die kontrafaktische Analyse in einem einzigen Durchlauf und überwindet so Einschränkungen traditioneller generativer Modelle.

deep learning generative models sequence models Conditional Attribute Estimation

RESEARCHarXiv CS.LG·4/24/2026

Validating a Deep Learning Algorithm to Identify Patients with Glaucoma using Systemic Electronic Health Records

Diese Forschung validiert einen Deep-Learning-Algorithmus zur Glaukom-Risikobewertung unter Verwendung systemischer elektronischer Gesundheitsakten. Das Modell, das mit Stanford-Patientendaten feinabgestimmt wurde, erreichte einen AUROC von 0.883 und einen PPV von 0.657 und zeigt damit ein großes Potenzial für skalierbares und zugängliches Vorscreening.

deep learning Medical Diagnosis healthcare AI EHR

RESEARCHarXiv CS.LG·4/24/2026

Do Masked Autoencoders Improve Downhole Prediction? An Empirical Study on Real Well Drilling Data

Diese Studie untersucht die Anwendung von Masked Autoencoder (MAE)-Vortraining für die Vorhersage von Bohrmetriken unter Tage, um die Datenasymmetrie in der Bohrelemetrie zu adressieren. Mithilfe realer Bohrdaten reduzierte MAE den mittleren absoluten Testfehler um 19,8% im Vergleich zu überwachten GRU-Baselines für die Vorhersage des Gesamtschlammvolumens.

industrial AI deep learning machine learning

RESEARCHarXiv CS.LG·vor 29T

Distributional Reinforcement Learning via the Cram\'er Distance

Dieser Artikel stellt den C-DSAC-Algorithmus vor, der Soft Actor-Critic im Bereich des verteilten Reinforcement Learnings anwendet und die Cramér-Distanz minimiert. Empirische Ergebnisse zeigen, dass C-DSAC bestehende Methoden übertrifft, insbesondere in komplexen Umgebungen, was auf seine vertrauensbasierten Q-Wert-Updates zurückzuführen ist.

deep learning reinforcement learning learning Algorithms

RESEARCHarXiv CS.LG·5/7/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW ist ein neuer Optimierer, der einen Selbstaufmerksamkeitsmechanismus verwendet, um gruppenspezifische Lernraten und Gewichtsabnahme dynamisch anzupassen und die Begrenzung uniformer Hyperparameter zu überwinden. Das Aufmerksamkeitsmodul wird über ein Meta-Lernziel trainiert, das Gradientenausrichtung, Verlustreduzierung und Generalisierungsabstand kombiniert.

Meta-Learning deep learning learning AI Research

RESEARCHarXiv CS.LG·5/7/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Diese Forschung stellt EdgeRazor vor, ein leichtgewichtiges Framework zur Bereitstellung großer Sprachmodelle auf ressourcenbeschränkten Geräten. Es nutzt gemischt-präzise quantisierungsbewusste Destillation, um Modelle voller Präzision in Formate mit geringerer Bitrate umzuwandeln und so die Einschränkungen früherer Quantisierungsmethoden zu überwinden.

LLMs deep learning quantization model optimization

RESEARCHarXiv CS.LG·5/7/2026

Lookahead Drifting Model

Dieses Papier schlägt ein "Lookahead-Drifting-Modell" für die Verteilungszuordnung vor, das die Leistung der Bildgenerierung durch eine einstufige neuronale Funktionsbewertung verbessert. Das Modell berechnet in jeder Trainingsiteration sequenziell eine Reihe von Drifting-Termen, die positive Stichproben und die Modellausgabe nutzen, um Gradienteninformationen höherer Ordnung zu erfassen.

neural networks Optimization deep learning machine learning

RESEARCHarXiv CS.LG·5/11/2026

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Dieses Papier stellt LKV (Learned KV Eviction) vor, einen neuartigen Ansatz zur Optimierung des Key-Value (KV)-Cache-Speichers in Large Language Models (LLMs). LKV formuliert die KV-Cache-Kompression als ein durchgängiges, differenzierbares Optimierungsproblem, das Budgets und Token-Auswahl lernt, um die Einschränkungen heuristischer Methoden zu überwinden.

deep learning Memory Optimization efficiency KV cache

RESEARCHarXiv CS.LG·vor 23T

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Dieses Papier stellt Group-Query Latent Attention (GQLA) vor, eine Modifikation der Multi-head Latent Attention (MLA). GQLA bietet zwei algebraisch äquivalente Dekodierungspfade, wodurch ein einziger Satz trainierter Gewichte ohne erneutes Training effizient an verschiedene Hardwareplattformen wie H100 und H20 angepasst werden kann.

deep learning Attention Mechanism AI Efficiency hardware optimization

RESEARCHDEV.to AI·4/25/2026

PP-LCNet: A Lightweight CPU Convolutional Neural Network

PP-LCNet stellt ein leichtes Convolutional Neural Network vor, das für effiziente Leistung auf CPUs optimiert ist. Diese Architektur konzentriert sich darauf, hohe Genauigkeit bei minimalen Rechenanforderungen zu erzielen, ideal für ressourcenbeschränkte Umgebungen.

deep learning lightweight models computer vision Convolutional Neural Networks

RESEARCHarXiv CS.LG·vor 21T

Theory-optimal Quantization Based on Flatness

Diese Forschung modelliert die Beziehung zwischen Quantisierungsfehler und Ausreißern in großen Sprachmodellen (LLMs) und führt eine neue Metrik, Flatness, zur Quantifizierung der Ausreißerverteilung ein. Basierend darauf wird eine theoretisch optimale Lösung abgeleitet und die bidirektionale diagonale Quantisierung (BDQ) für die Post-Training-Quantisierung vorgeschlagen.

deep learning machine learning quantization AI

RESEARCHarXiv CS.AI·vor 21T

KAN-MLP-Mixer: A comprehensive investigation of the usage of Kolmogorov-Arnold Networks (KANs) for improving IMU-based Human Activity Recognition

Kolmogorov-Arnold-Netzwerke (KANs) eignen sich hervorragend für saubere Daten, haben aber Schwierigkeiten mit verrauschten realen Datensätzen, während konventionelle MLPs rauschresistent und effizient sind. Diese Arbeit schlägt eine hybride KAN-MLP-Architektur für die IMU-basierte menschliche Aktivitätserkennung vor, die die Präzision von KANs mit der Robustheit und Effizienz von MLPs verbindet.

neural networks deep learning machine learning Human Activity Recognition