← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.CL·4/21/2026

Brain-CLIPLM: Decoding Compressed Semantic Representations in EEG for Language Reconstruction

Diese Arbeit schlägt eine semantische Kompressionshypothese vor, um Einschränkungen bei der EEG-zu-Text-Dekodierung zu überwinden, indem sie annimmt, dass EEG-Signale komprimierte semantische Anker und nicht die vollständige Sprachstruktur kodieren. Es wird Brain-CLIPLM vorgestellt, ein zweistufiges Framework zur Extraktion semantischer Anker mittels kontrastivem Lernen und zur Satzrekonstruktion mithilfe eines retrieval-basierten großen Sprachmodells.

27
RESEARCHarXiv CS.LG·5/4/2026

Cloud Is Closer Than It Appears: Revisiting the Tradeoffs of Distributed Real-Time Inference

Diese Arbeit untersucht die Machbarkeit von Cloud-basierter Inferenz für latenzempfindliche cyber-physikalische Systeme neu und stellt die Annahme in Frage, dass die lokale Verarbeitung stets überlegen ist. Sie zeigt, dass Cloud-Plattformen mit hohem Durchsatz die Leistung von On-Device-Systemen für Echtzeit-Steuerungsaufgaben erreichen oder übertreffen können, indem sie Netzwerk- und Warteschlangenverzögerungen amortisieren.

27
RESEARCHarXiv CS.LG·5/7/2026

Continual Distillation of Teachers from Different Domains

Diese Forschung stellt Continual Distillation (CD) vor, ein neues Paradigma, bei dem ein Schülermodell sequenziell von einem Strom von Lehrmodellen lernt, ohne frühere Lehrer beizubehalten. Es adressiert Herausforderungen wie den Transfer (UKT) und das Vergessen (UKF) von ungesehenem Wissen mittels Self External Data Distillation (SE2D), das unbeschriftete externe Daten verwendet, um das Lernen über heterogene Lehrer hinweg zu stabilisieren.

27
RESEARCHarXiv CS.LG·4/21/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Diese Arbeit stellt BASIS vor, einen effizienten Backpropagation-Algorithmus, der den O(L * BN) räumlichen Speicherengpass in tiefen neuronalen Netzen adressiert. Er entkoppelt den Aktivierungsspeicher vollständig von Batch- und Sequenzdimensionen, bewahrt exakte Fehlersignale, während er Gewichtsaktualisierungen mit stark komprimierten Tensoren berechnet, und schlägt neue Mechanismen zur Stabilisierung von Gradienten vor.

27
RESEARCHarXiv CS.LG·vor 8T

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Hoeffding Concept Bottleneck Modelle (HCBM) werden vorgestellt, um nicht-lineare und sparse Aggregationen von Konzept-Scores zu liefern, die die Erklärbarkeit und Genauigkeit von Deep-Learning-Vorhersagen verbessern. Diese Methode nutzt die Hoeffding-Funktionszerlegung von gradientenverstärkten Bäumen, um die Einschränkungen bestehender linearer CBMs zu überwinden, die unter einer großen Anzahl von Konzepten und potenziellen Informationslecks leiden.

27
RESEARCHarXiv CS.AI·vor 25T

Conditional Attribute Estimation with Autoregressive Sequence Models

Diese Forschung stellt Conditional Attribute Transformers vor, eine neuartige Methode zur gleichzeitigen Schätzung der Wahrscheinlichkeit des nächsten Tokens und des Werts eines Attributs, bedingt durch jede potenzielle Auswahl des nächsten Tokens. Dieser Rahmen ermöglicht wichtige Funktionen wie die Zuweisung von Token-Credits und die kontrafaktische Analyse in einem einzigen Durchlauf und überwindet so Einschränkungen traditioneller generativer Modelle.

27
RESEARCHarXiv CS.LG·4/24/2026

Validating a Deep Learning Algorithm to Identify Patients with Glaucoma using Systemic Electronic Health Records

Diese Forschung validiert einen Deep-Learning-Algorithmus zur Glaukom-Risikobewertung unter Verwendung systemischer elektronischer Gesundheitsakten. Das Modell, das mit Stanford-Patientendaten feinabgestimmt wurde, erreichte einen AUROC von 0.883 und einen PPV von 0.657 und zeigt damit ein großes Potenzial für skalierbares und zugängliches Vorscreening.

27
RESEARCHarXiv CS.LG·4/24/2026

Do Masked Autoencoders Improve Downhole Prediction? An Empirical Study on Real Well Drilling Data

Diese Studie untersucht die Anwendung von Masked Autoencoder (MAE)-Vortraining für die Vorhersage von Bohrmetriken unter Tage, um die Datenasymmetrie in der Bohrelemetrie zu adressieren. Mithilfe realer Bohrdaten reduzierte MAE den mittleren absoluten Testfehler um 19,8% im Vergleich zu überwachten GRU-Baselines für die Vorhersage des Gesamtschlammvolumens.

27
RESEARCHarXiv CS.LG·5/7/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW ist ein neuer Optimierer, der einen Selbstaufmerksamkeitsmechanismus verwendet, um gruppenspezifische Lernraten und Gewichtsabnahme dynamisch anzupassen und die Begrenzung uniformer Hyperparameter zu überwinden. Das Aufmerksamkeitsmodul wird über ein Meta-Lernziel trainiert, das Gradientenausrichtung, Verlustreduzierung und Generalisierungsabstand kombiniert.

27
RESEARCHarXiv CS.LG·5/7/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Diese Forschung stellt EdgeRazor vor, ein leichtgewichtiges Framework zur Bereitstellung großer Sprachmodelle auf ressourcenbeschränkten Geräten. Es nutzt gemischt-präzise quantisierungsbewusste Destillation, um Modelle voller Präzision in Formate mit geringerer Bitrate umzuwandeln und so die Einschränkungen früherer Quantisierungsmethoden zu überwinden.

27
RESEARCHarXiv CS.LG·5/7/2026

Lookahead Drifting Model

Dieses Papier schlägt ein "Lookahead-Drifting-Modell" für die Verteilungszuordnung vor, das die Leistung der Bildgenerierung durch eine einstufige neuronale Funktionsbewertung verbessert. Das Modell berechnet in jeder Trainingsiteration sequenziell eine Reihe von Drifting-Termen, die positive Stichproben und die Modellausgabe nutzen, um Gradienteninformationen höherer Ordnung zu erfassen.

27
RESEARCHarXiv CS.LG·5/11/2026

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Dieses Papier stellt LKV (Learned KV Eviction) vor, einen neuartigen Ansatz zur Optimierung des Key-Value (KV)-Cache-Speichers in Large Language Models (LLMs). LKV formuliert die KV-Cache-Kompression als ein durchgängiges, differenzierbares Optimierungsproblem, das Budgets und Token-Auswahl lernt, um die Einschränkungen heuristischer Methoden zu überwinden.

27
RESEARCHarXiv CS.LG·vor 23T

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Dieses Papier stellt Group-Query Latent Attention (GQLA) vor, eine Modifikation der Multi-head Latent Attention (MLA). GQLA bietet zwei algebraisch äquivalente Dekodierungspfade, wodurch ein einziger Satz trainierter Gewichte ohne erneutes Training effizient an verschiedene Hardwareplattformen wie H100 und H20 angepasst werden kann.

27
RESEARCHarXiv CS.LG·vor 21T

Theory-optimal Quantization Based on Flatness

Diese Forschung modelliert die Beziehung zwischen Quantisierungsfehler und Ausreißern in großen Sprachmodellen (LLMs) und führt eine neue Metrik, Flatness, zur Quantifizierung der Ausreißerverteilung ein. Basierend darauf wird eine theoretisch optimale Lösung abgeleitet und die bidirektionale diagonale Quantisierung (BDQ) für die Post-Training-Quantisierung vorgeschlagen.

27
RESEARCHarXiv CS.AI·vor 21T

KAN-MLP-Mixer: A comprehensive investigation of the usage of Kolmogorov-Arnold Networks (KANs) for improving IMU-based Human Activity Recognition

Kolmogorov-Arnold-Netzwerke (KANs) eignen sich hervorragend für saubere Daten, haben aber Schwierigkeiten mit verrauschten realen Datensätzen, während konventionelle MLPs rauschresistent und effizient sind. Diese Arbeit schlägt eine hybride KAN-MLP-Architektur für die IMU-basierte menschliche Aktivitätserkennung vor, die die Präzision von KANs mit der Robustheit und Effizienz von MLPs verbindet.

27