← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·21/04/2026

Preventing overfitting in deep learning using differential privacy

Cette recherche explore une approche basée sur la confidentialité différentielle pour améliorer la généralisation et prévenir le surapprentissage dans les réseaux neuronaux profonds. Le surapprentissage, où les modèles apprennent le bruit et fonctionnent mal sur des données invisibles, est un défi croissant dans les systèmes d'IA modernes.

27
RESEARCHarXiv CS.CL·21/04/2026

Brain-CLIPLM: Decoding Compressed Semantic Representations in EEG for Language Reconstruction

Ce travail propose une hypothèse de compression sémantique pour surmonter les limites du décodage EEG-vers-texte, suggérant que les signaux EEG encodent des ancres sémantiques compressées plutôt que la structure linguistique complète. Il introduit Brain-CLIPLM, un cadre en deux étapes pour l'extraction d'ancres sémantiques via l'apprentissage contrastif et la reconstruction de phrases à l'aide d'un grand modèle de langage basé sur la récupération.

27
RESEARCHarXiv CS.LG·04/05/2026

Cloud Is Closer Than It Appears: Revisiting the Tradeoffs of Distributed Real-Time Inference

Cet article réexamine la viabilité de l'inférence basée sur le cloud pour les systèmes cyber-physiques sensibles à la latence, remettant en question l'hypothèse selon laquelle le traitement sur l'appareil est toujours supérieur. Il démontre que les plateformes cloud à haut débit peuvent égaler ou surpasser les performances sur l'appareil pour les tâches de contrôle en temps réel, en amortissant les délais de réseau et de file d'attente.

27
RESEARCHarXiv CS.LG·07/05/2026

Continual Distillation of Teachers from Different Domains

Cette recherche introduit la Distillation Continue (CD), un nouveau paradigme où un modèle étudiant apprend séquentiellement d'un flux de modèles enseignants sans retenir l'accès aux précédents. Elle aborde les défis tels que le transfert (UKT) et l'oubli (UKF) des connaissances invisibles grâce à la Distillation de Données Externes Auto-Supervisées (SE2D), qui utilise des données externes non étiquetées pour stabiliser l'apprentissage à travers des enseignants hétérogènes.

27
RESEARCHarXiv CS.LG·21/04/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Cet article introduit BASIS, un algorithme de rétropropagation efficace qui résout le goulot d'étranglement de la mémoire O(L * BN) dans les réseaux neuronaux profonds. Il découple entièrement la mémoire d'activation des dimensions de lot et de séquence, conservant un signal d'erreur exact tout en calculant les mises à jour de poids avec des tenseurs fortement compressés, et propose de nouveaux mécanismes pour stabiliser les gradients.

27
RESEARCHarXiv CS.LG·il y a 29j

Feature Repulsion and Spectral Lock-in: An Empirical Study of Two-Layer Network Grokking

Cette étude empirique examine le théorème de répulsion des caractéristiques dans le grokking de réseaux à deux couches, tel que prouvé par Tian (2025). Elle révèle une dissociation claire entre structure et mécanisme, avec la règle de signe prévue tenant robustement pour les paires de caractéristiques les plus similaires.

27
RESEARCHarXiv CS.LG·il y a 8j

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Les Modèles de Goulot d'Étranglement de Concept de Hoeffding (HCBM) sont introduits pour fournir des agrégations non linéaires et éparses des scores de concept, améliorant l'explicabilité et la précision des prédictions d'apprentissage profond. Cette méthode utilise la décomposition fonctionnelle de Hoeffding des arbres boostés par gradient pour surmonter les limitations des CBM linéaires existants, qui souffrent d'un grand nombre de concepts et de fuites d'informations potentielles.

27
RESEARCHarXiv CS.AI·il y a 25j

Conditional Attribute Estimation with Autoregressive Sequence Models

Cette recherche introduit les Conditional Attribute Transformers, une nouvelle méthode pour estimer conjointement la probabilité du prochain token et la valeur d'un attribut conditionnellement à chaque sélection potentielle du prochain token. Ce cadre permet des capacités critiques telles que l'attribution de crédit par token et l'analyse contrefactuelle en un seul passage, surmontant les limites des modèles génératifs traditionnels.

27
RESEARCHarXiv CS.LG·24/04/2026

Validating a Deep Learning Algorithm to Identify Patients with Glaucoma using Systemic Electronic Health Records

Cette recherche valide un algorithme d'apprentissage profond pour l'évaluation du risque de glaucome à l'aide de dossiers de santé électroniques systémiques. Le modèle, affiné sur les données de patients de Stanford, a atteint un AUROC de 0.883 et un PPV de 0.657, démontrant un fort potentiel pour le pré-dépistage évolutif et accessible.

27
RESEARCHarXiv CS.LG·24/04/2026

Do Masked Autoencoders Improve Downhole Prediction? An Empirical Study on Real Well Drilling Data

Cette étude évalue l'application du pré-entraînement par Masked Autoencoders (MAE) pour la prédiction des métriques de forage en fond de trou, face à l'asymétrie des données de télémétrie. Sur des données de forage réelles, le MAE a réduit l'erreur absolue moyenne de test de 19,8% par rapport aux modèles GRU supervisés pour la prédiction du volume total de boue.

27
RESEARCHarXiv CS.LG·il y a 29j

Distributional Reinforcement Learning via the Cram\'er Distance

Cet article présente l'algorithme C-DSAC, qui applique Soft Actor-Critic dans un cadre d'apprentissage par renforcement distributionnel en minimisant la distance de Cramér. Les résultats empiriques montrent que C-DSAC surpasse les méthodes existantes, en particulier dans les environnements de haute complexité, grâce à des mises à jour des valeurs Q basées sur la confiance.

27
RESEARCHarXiv CS.LG·07/05/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW est un nouvel optimiseur qui utilise un mécanisme d'auto-attention pour ajuster dynamiquement les taux d'apprentissage et la décroissance du poids par groupe de paramètres, remédiant à la limitation des hyperparamètres uniformes. Le module d'attention est entraîné via un objectif de méta-apprentissage combinant l'alignement du gradient, la diminution de la perte et l'écart de généralisation.

27
RESEARCHarXiv CS.LG·07/05/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Cette recherche présente EdgeRazor, un cadre léger conçu pour déployer les grands modèles de langage sur des appareils à ressources limitées. Il utilise une distillation de quantification consciente à précision mixte pour convertir les modèles à pleine précision en formats à bits inférieurs, surmontant les limitations des méthodes de quantification précédentes.

27
RESEARCHarXiv CS.LG·07/05/2026

Lookahead Drifting Model

Cet article propose un modèle de dérive "lookahead" pour le mappage de distributions, améliorant les performances de génération d'images avec une évaluation fonctionnelle neuronale en une seule étape. Le modèle calcule séquentiellement un ensemble de termes de dérive à chaque itération d'entraînement, en utilisant des échantillons positifs et les sorties du modèle pour capturer des informations de gradient d'ordre supérieur.

27
RESEARCHarXiv CS.LG·11/05/2026

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Cet article introduit LKV (Learned KV Eviction), une nouvelle approche pour optimiser la mémoire cache Key-Value (KV) dans les Large Language Models (LLM). LKV formule la compression du cache KV comme un problème d'optimisation différentiable de bout en bout, apprenant les budgets et la sélection de tokens pour surmonter les limitations des méthodes heuristiques.

27
RESEARCHarXiv CS.LG·il y a 23j

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Cet article présente la Group-Query Latent Attention (GQLA), une modification de la Multi-head Latent Attention (MLA). La GQLA expose deux chemins de décodage algébriquement équivalents, permettant à un seul ensemble de poids entraînés de s'adapter efficacement à différentes plateformes matérielles comme le H100 et le H20, sans réentraînement.

27
RESEARCHarXiv CS.LG·il y a 21j

Theory-optimal Quantization Based on Flatness

Cette recherche modélise la relation entre l'erreur de quantification et les valeurs aberrantes dans les grands modèles de langage (LLM) et introduit une nouvelle métrique, Flatness, pour quantifier la distribution des valeurs aberrantes. Sur cette base, elle dérive une solution théorique optimale et propose la Quantification Diagonale Bidirectionnelle (BDQ) pour la quantification post-entraînement.

27
RESEARCHarXiv CS.AI·il y a 21j

KAN-MLP-Mixer: A comprehensive investigation of the usage of Kolmogorov-Arnold Networks (KANs) for improving IMU-based Human Activity Recognition

Les Réseaux de Kolmogorov-Arnold (KANs) excellent dans l'apprentissage de fonctions complexes sur des données propres mais peinent avec des ensembles de données réels et bruyants, contrairement aux perceptrons multicouches (MLPs) qui sont robustes au bruit et efficaces. Cet article propose une architecture hybride KAN-MLP pour la Reconnaissance d'Activité Humaine basée sur IMU, combinant la précision des KANs avec la robustesse et l'efficacité des MLPs.

27