deep learning

263 items

RESEARCHarXiv CS.LG·il y a 12j

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Cet article examine les origines mécanistes de l'oubli catastrophique dans les grands modèles linguistiques (LLM), comparant l'apprentissage par renforcement (RL) à l'ajustement fin supervisé (SFT). Il révèle que le RL préserve plus efficacement les circuits computationnels internes, atténuant l'oubli des capacités antérieures, contrairement au SFT qui provoque une plus grande perturbation des circuits.

LLMs deep learning machine learning Catastrophic Forgetting

RESEARCHarXiv CS.CL·il y a 7j

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Des chercheurs ont découvert que les performances des modèles linguistiques peuvent s'améliorer significativement lorsque les couches profondes apprennent des vecteurs de valeur sans contexte, préservant les informations de jeton originales. Cela élimine le besoin de recalculer ou de mettre en cache ces valeurs de manière persistante, car la composante dépendante du contexte apporte peu de bénéfice supplémentaire.

neural networks LLMs deep learning Attention Mechanism

RESEARCHarXiv CS.LG·il y a 9j

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Cette étude introduit Gait2Hip-60, un cadre d'apprentissage profond pour prédire les forces musculaires de la hanche et les moments articulaires directement à partir de la cinématique de la marche à cadences multiples. Il compare les modèles LSTM, Transformer et Mamba, évaluant leurs performances chez des adultes en bonne santé et une cohorte externe de patients.

biomechanics deep learning gait analysis musculoskeletal simulation

RESEARCHarXiv CS.AI·il y a 7j

Evaluating Transformer and LSTM Frameworks for Prediction in Ungauged Basins

Cette étude évalue les frameworks Transformer et LSTM pour l'inférence de débit dans des bassins non jaugés avec des informations hydrologiques limitées. L'architecture LSTM a montré une performance globale plus forte que le modèle Transformer, et l'intégration d'informations en aval a encore amélioré la performance de tous les modèles.

deep learning Environmental Modeling machine learning AI

RESEARCHarXiv CS.LG·il y a 7j

Geometry-Aware Tabular Diffusion

La diffusion tabulaire sensible à la géométrie (GATD) est introduite pour la synthèse tabulaire, améliorant les dénoiseurs avec des angles et des longueurs appariés issus des différences de valeurs de colonne. Elle atteint des performances de pointe avec moins de paramètres, réduisant les erreurs et démontrant que la supervision relationnelle explicite est la clé du gain.

Diffusion Models data synthesis deep learning machine learning

RESEARCHarXiv CS.LG·il y a 16j

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Cet article introduit Tensor Cache, un cache à deux niveaux pour les Transformers, conçu pour optimiser les caches KV. Il associe une attention softmax à fenêtre glissante (L1) à une mémoire de poids rapide à produit extérieur de taille fixe (L2) pour gérer les tokens expulsés, améliorant l'accès aux preuves pertinentes en dehors de la fenêtre de contexte.

Associative Memory deep learning AI Caching

RESEARCHarXiv CS.LG·il y a 9j

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn est un nouveau framework pour la prévision évolutive des séries temporelles de haute dimension, comblant le fossé entre les modèles existants en apprenant des motifs d'interaction universels. Il utilise un carnet de codes de prototypes latents, surpassant les architectures de pointe, surtout dans les scénarios de transfert à faible nombre d'exemples.

forecasting pretraining deep learning machine learning

RESEARCHarXiv CS.LG·il y a 16j

FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning

Cette recherche introduit FuRA (Full-Rank Adaptation), une nouvelle méthode de réglage fin efficace en paramètres qui aborde les limites des techniques existantes en incorporant un préconditionnement spectral. En reparamétrant les matrices de poids via la décomposition en valeurs singulières de rang complet et en limitant les mises à jour, FuRA surpasse le réglage fin complet non contraint tout en maintenant l'efficacité.

Optimization deep learning machine learning spectral preconditioning

RESEARCHarXiv CS.LG·il y a 13j

A Simple State Space Model Excels at Multivariate Time Series Classification

Cette recherche étudie systématiquement les modèles d'espace d'états structurés (SSM) pour la classification des séries temporelles, comparant les architectures complexes basées sur Mamba avec des SSM diagonaux plus simples (S4D). Étonnamment, S4D surpasse constamment les variantes basées sur Mamba en termes de précision et d'efficacité sur de grands benchmarks, remettant en question l'hypothèse qu'une complexité accrue du modèle entraîne des gains significatifs dans ce domaine.

Time Series Classification deep learning machine learning Sequence Modeling

RESEARCHarXiv CS.LG·il y a 13j

Comparative Analysis of Liquid Neural Networks and LSTM for Sequential Pattern Recognition: Robustness, Efficiency, and Clinical Utility

Les Réseaux Neuronaux Liquides (LNN) modélisent l'évolution de l'état caché via des équations différentielles continues, contrairement aux RNN et LSTM à temps discret. Cette étude compare les LNN aux LSTM sur quatre modalités séquentielles, révélant la supériorité des LNN en termes d'efficacité paramétrique et de robustesse dans les domaines temporels et cliniques.

neural networks Clinical AI deep learning machine learning

DOCDEV.to AI·16/04/2026

Understanding Transformers Part 8: Shared Weights in Self-Attention

L'article explique que les Transformers réutilisent le même ensemble de poids pour les requêtes, les clés et les valeurs à travers tous les mots d'entrée, permettant ainsi le calcul parallèle. Cette réutilisation rend le mécanisme d'auto-attention très efficace.

neural networks Self-Attention deep learning Parallel Computing

ARTICLEDEV.to AI·10/04/2026

Neural Machine Translation and Sequence-to-sequence Models: A Tutorial

Este tutorial aborda a tradução automática neural e os modelos sequência a sequência, explorando seus fundamentos e aplicações essenciais no campo da inteligência artificial.

Neural Machine Translation deep learning Sequence-to-sequence Models NLP

RESEARCHDEV.to AI·10/04/2026

LongLive: Real-time Interactive Long Video Generation

Este conteúdo aborda LongLive, um sistema para a geração interativa e em tempo real de vídeos longos. A tecnologia foca em produzir sequências de vídeo estendidas de forma dinâmica.

deep learning interactive AI video generation real-time AI

RESEARCHDEV.to AI·il y a 28j

Deep Time Series Models: A Comprehensive Survey and Benchmark

Cet article propose une étude et un benchmark complets des modèles d'apprentissage profond appliqués aux données de séries temporelles. Il examine systématiquement diverses architectures et leurs performances sur différentes tâches et ensembles de données.

Survey deep learning machine learning benchmarking

RESEARCHDEV.to AI·27/04/2026

Review of Deep Learning

Ce contenu est une revue approfondie du Deep Learning, explorant ses fondamentaux et ses avancées. Il offre une analyse complète des techniques et des applications dans ce domaine de l'intelligence artificielle.

review deep learning AI

RESEARCHDEV.to AI·25/04/2026

Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU SparseAutoencoders

Ce contenu décrit une recherche visant à améliorer la fidélité de la reconstruction en utilisant une nouvelle approche appelée JumpReLU SparseAutoencoders.

deep learning autoencoders machine learning

RESEARCHDEV.to AI·il y a 24j

Improving Deep Pancreas Segmentation in CT and MRI Images via Recurrent NeuralContextual Learning and Direct Loss Function

Cet article propose une méthode innovante pour améliorer la segmentation du pancréas dans les images CT et IRM. Il utilise l'apprentissage contextuel récurrent des réseaux neuronaux et une fonction de perte directe pour optimiser la précision.

CT deep learning pancreas segmentation MRI

RESEARCHDEV.to AI·28/04/2026

You Only Watch Once: A Unified CNN Architecture for Real-Time SpatiotemporalAction Localization

Le titre décrit une architecture CNN unifiée pour la localisation d'actions spatio-temporelles en temps réel. Ce travail vise à améliorer l'efficacité et la précision dans la détection d'activités vidéo.

CNN deep learning computer vision Action Recognition

ARTICLEDEV.to AI·15/04/2026

A Modern Take on the Bias-Variance Tradeoff in Neural Networks

Cet article offre une perspective moderne sur le compromis classique biais-variance, réévaluant son application et sa pertinence dans le contexte des réseaux neuronaux contemporains. Il explore comment ce concept fondamental se manifeste et impacte les performances des modèles d'apprentissage profond.

neural networks model performance deep learning machine learning

RESEARCHDEV.to AI·19/04/2026

Camera identification with deep convolutional networks

Cette recherche explore l'utilisation de réseaux convolutifs profonds pour la tâche spécifique d'identification de caméras. Elle examine comment ces modèles d'IA avancés peuvent différencier diverses caméras.

deep learning computer vision AI