← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·il y a 12j

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Cet article examine les origines mécanistes de l'oubli catastrophique dans les grands modèles linguistiques (LLM), comparant l'apprentissage par renforcement (RL) à l'ajustement fin supervisé (SFT). Il révèle que le RL préserve plus efficacement les circuits computationnels internes, atténuant l'oubli des capacités antérieures, contrairement au SFT qui provoque une plus grande perturbation des circuits.

27
RESEARCHarXiv CS.CL·il y a 7j

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Des chercheurs ont découvert que les performances des modèles linguistiques peuvent s'améliorer significativement lorsque les couches profondes apprennent des vecteurs de valeur sans contexte, préservant les informations de jeton originales. Cela élimine le besoin de recalculer ou de mettre en cache ces valeurs de manière persistante, car la composante dépendante du contexte apporte peu de bénéfice supplémentaire.

27
RESEARCHarXiv CS.LG·il y a 9j

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Cette étude introduit Gait2Hip-60, un cadre d'apprentissage profond pour prédire les forces musculaires de la hanche et les moments articulaires directement à partir de la cinématique de la marche à cadences multiples. Il compare les modèles LSTM, Transformer et Mamba, évaluant leurs performances chez des adultes en bonne santé et une cohorte externe de patients.

27
RESEARCHarXiv CS.AI·il y a 7j

Evaluating Transformer and LSTM Frameworks for Prediction in Ungauged Basins

Cette étude évalue les frameworks Transformer et LSTM pour l'inférence de débit dans des bassins non jaugés avec des informations hydrologiques limitées. L'architecture LSTM a montré une performance globale plus forte que le modèle Transformer, et l'intégration d'informations en aval a encore amélioré la performance de tous les modèles.

27
RESEARCHarXiv CS.LG·il y a 7j

Geometry-Aware Tabular Diffusion

La diffusion tabulaire sensible à la géométrie (GATD) est introduite pour la synthèse tabulaire, améliorant les dénoiseurs avec des angles et des longueurs appariés issus des différences de valeurs de colonne. Elle atteint des performances de pointe avec moins de paramètres, réduisant les erreurs et démontrant que la supervision relationnelle explicite est la clé du gain.

27
RESEARCHarXiv CS.LG·il y a 16j

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Cet article introduit Tensor Cache, un cache à deux niveaux pour les Transformers, conçu pour optimiser les caches KV. Il associe une attention softmax à fenêtre glissante (L1) à une mémoire de poids rapide à produit extérieur de taille fixe (L2) pour gérer les tokens expulsés, améliorant l'accès aux preuves pertinentes en dehors de la fenêtre de contexte.

27
RESEARCHarXiv CS.LG·il y a 9j

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn est un nouveau framework pour la prévision évolutive des séries temporelles de haute dimension, comblant le fossé entre les modèles existants en apprenant des motifs d'interaction universels. Il utilise un carnet de codes de prototypes latents, surpassant les architectures de pointe, surtout dans les scénarios de transfert à faible nombre d'exemples.

27
RESEARCHarXiv CS.LG·il y a 16j

FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning

Cette recherche introduit FuRA (Full-Rank Adaptation), une nouvelle méthode de réglage fin efficace en paramètres qui aborde les limites des techniques existantes en incorporant un préconditionnement spectral. En reparamétrant les matrices de poids via la décomposition en valeurs singulières de rang complet et en limitant les mises à jour, FuRA surpasse le réglage fin complet non contraint tout en maintenant l'efficacité.

27
RESEARCHarXiv CS.LG·il y a 13j

A Simple State Space Model Excels at Multivariate Time Series Classification

Cette recherche étudie systématiquement les modèles d'espace d'états structurés (SSM) pour la classification des séries temporelles, comparant les architectures complexes basées sur Mamba avec des SSM diagonaux plus simples (S4D). Étonnamment, S4D surpasse constamment les variantes basées sur Mamba en termes de précision et d'efficacité sur de grands benchmarks, remettant en question l'hypothèse qu'une complexité accrue du modèle entraîne des gains significatifs dans ce domaine.

27
RESEARCHarXiv CS.LG·il y a 13j

Comparative Analysis of Liquid Neural Networks and LSTM for Sequential Pattern Recognition: Robustness, Efficiency, and Clinical Utility

Les Réseaux Neuronaux Liquides (LNN) modélisent l'évolution de l'état caché via des équations différentielles continues, contrairement aux RNN et LSTM à temps discret. Cette étude compare les LNN aux LSTM sur quatre modalités séquentielles, révélant la supériorité des LNN en termes d'efficacité paramétrique et de robustesse dans les domaines temporels et cliniques.

27
RESEARCHDEV.to AI·27/04/2026

Review of Deep Learning

Ce contenu est une revue approfondie du Deep Learning, explorant ses fondamentaux et ses avancées. Il offre une analyse complète des techniques et des applications dans ce domaine de l'intelligence artificielle.

27