deep learning

263 items

ARTICLEDEV.to AI·19/04/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Cet article explore les limites des LSTMs dans le maintien du contexte, malgré leurs capacités de mémoire améliorées par rapport aux RNNs classiques. L'auteur utilise son expérience personnelle d'apprentissage de l'anglais pour illustrer les trois problèmes spécifiques que les LSTMs ne résolvent toujours pas, préparant le terrain pour la discussion des mécanismes d'attention.

deep learning attention mechanisms Natural Language Processing

RESEARCHDEV.to AI·il y a 24j

Deep Neural Networks for Survival Analysis Based on a Multi-Task Framework

Cette recherche explore l'application des réseaux neuronaux profonds dans l'analyse de survie, en utilisant un cadre multi-tâches. L'approche vise à améliorer la prédiction et la modélisation des données de temps jusqu'à l'événement en tirant parti d'architectures de réseaux neuronaux complexes.

neural networks multi-task learning deep learning survival analysis

RESEARCHDEV.to AI·10/05/2026

Neural Language Correction with Character-Based Attention

Cette recherche introduit une approche novatrice pour la correction neuronale du langage, en utilisant des mécanismes d'attention basés sur les caractères. La méthode vise à améliorer la précision et la robustesse de la correction automatique des erreurs grammaticales et orthographiques dans le texte.

neural networks deep learning attention mechanisms Natural Language Processing

RESEARCHDEV.to AI·27/04/2026

An Attention Free Transformer

Ce contenu présente le concept d'un Transformer sans attention, une nouvelle conception architecturale visant à reproduire les capacités des Transformers traditionnels sans le mécanisme d'auto-attention. Il explore probablement des mécanismes alternatifs pour le traitement des informations contextuelles dans les tâches de séquence à séquence.

neural networks deep learning AI Architectures Transformers

RESEARCHarXiv CS.LG·15/04/2026

Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids

Cette recherche présente le Thermodynamic Liquid Manifold Network (TLMN), un modèle d'apprentissage profond contraint par la physique pour la prévision solaire dans les microréseaux autonomes hors réseau. Il résout les anomalies critiques des modèles actuels en intégrant la thermodynamique atmosphérique et la mécanique céleste pour éviter les prévisions physiquement impossibles.

microgrids deep learning Solar Forecasting Thermodynamics

RESEARCHarXiv CS.LG·15/04/2026

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Cet article propose un nouveau cadre basé sur le bootstrap pour la quantification de l'incertitude (UQ) dans les réseaux neuronaux convolutifs (CNN), répondant au manque d'outils UQ théoriquement cohérents. La méthode utilise des réseaux de neurones convexifiés pour établir une cohérence théorique, offre une charge computationnelle significativement moindre et explore une nouvelle approche d'apprentissage par transfert.

Theoretical Consistency Bootstrap deep learning Uncertainty Quantification

RESEARCHarXiv CS.AI·25/04/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Ce travail présente un cadre innovant pour l'allocation adaptative de calcul au moment des tests, ajustant conjointement où la computation est dépensée et comment la génération est effectuée. La méthode utilise une phase d'échauffement pour identifier les requêtes faciles, puis concentre le calcul supplémentaire sur les requêtes non résolues, en remodelant les distributions de génération avec des démonstrations en contexte évolutives.

deep learning machine learning in-context learning AI

RESEARCHarXiv CS.LG·28/04/2026

AutoCompress: Critical Layer Isolation for Efficient Transformer Compression

AutoCompress est une méthode de compression de transformateurs qui isole la Couche 0, jugée critique, en la maintenant à pleine dimensionnalité. Appliquée à GPT-2 Medium, cette méthode réduit les paramètres de 59,5 % avec des performances nettement supérieures à une base de référence uniforme.

AI architecture model efficiency deep learning GPT-2

RESEARCHarXiv CS.LG·05/05/2026

Fast Log-Domain Sinkhorn Optimal Transport with Warp-Level GPU Reductions

Cet article présente FastSinkhorn, une implémentation CUDA native de l'algorithme de Sinkhorn en domaine logarithmique, offrant des solutions plus rapides et stables pour les problèmes de transport optimal (OT). Il atteint une accélération de 12x par rapport à la bibliothèque POT et de 5,9x par rapport aux bases de PyTorch accélérées par GPU, tout en maintenant la stabilité numérique pour de petits paramètres de régularisation.

GPU computing deep learning Sinkhorn Algorithm Numerical Stability

RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Cet article présente le Length Value Model (LenVM), un nouveau cadre au niveau du token pour modéliser la longueur de génération restante dans les modèles autorégressifs. En formulant la modélisation de la longueur comme un problème d'estimation de valeur, LenVM fournit un signal efficace, sans annotation et évolutif pour les LLM et VLM, améliorant les performances sur les tâches de correspondance exacte de longueur.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.LG·27/04/2026

LTBs-KAN: Linear-Time B-splines Kolmogorov-Arnold Networks

LTBs-KAN est une nouvelle architecture de réseau neuronal qui résout la lenteur des KANs traditionnels en offrant une complexité linéaire et une réduction des paramètres. La recherche démontre des améliorations de l'efficacité computationnelle et de la réduction des paramètres sur des ensembles de données comme MNIST, Fashion-MNIST et CIFAR-10.

neural networks B-splines deep learning Computational Efficiency

RESEARCHarXiv CS.LG·01/05/2026

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Les modèles de diffusion masqués (MDMs) ignorent les prédictions d'état propre pour les jetons qui restent masqués, limitant le raffinement inter-étapes. Cet article propose les modèles de diffusion masqués auto-conditionnés (SCMDM), une adaptation post-entraînement qui conditionne chaque étape de débruitage sur les prédictions d'état propre précédentes du modèle lui-même. Cela améliore les performances sans changements architecturaux majeurs ni évaluations supplémentaires.

Diffusion Models model adaptation deep learning machine learning

RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Cette recherche étudie la nécessité des jetons de mémoire appris comme bloc-notes computationnel pour les Universal Transformers avec Temps de Calcul Adaptatif (ACT) sur un benchmark de raisonnement combinatoire. Elle conclut que les jetons de mémoire sont empiriquement nécessaires pour une performance non triviale, identifiant un seuil inférieur net pour le nombre optimal et un piège courant d'initialisation de routeur.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·08/05/2026

Are Flat Minima an Illusion?

Cet article remet en question l'idée selon laquelle les minima plats conduisent intrinsèquement à une meilleure généralisation, montrant qu'une reparamétrisation préservant la fonction peut modifier drastiquement la netteté perçue d'un minimum. Il introduit la « faiblesse » — une mesure invariante à la reparamétrisation basée sur ce que fait le réseau — comme le véritable moteur de la généralisation, prouvant son optimalité minimax et sa corrélation avec les bornes PAC-Bayes.

neural networks Optimization Generalization Machine Learning Theory

RESEARCHDEV.to AI·08/04/2026

Neural Models for Information Retrieval

Este conteúdo aborda o uso de modelos neurais para aprimorar os sistemas de recuperação de informação. Explora como a inteligência artificial pode otimizar a busca e organização de grandes volumes de dados.

neural networks deep learning machine learning Information Retrieval

RESEARCHarXiv CS.LG·16/04/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Cet article identifie l'entropie spectrale normalisée comme un paramètre d'ordre scalaire pour la transition de grokking, où les modèles généralisent longtemps après la mémorisation. La recherche montre que l'effondrement de l'entropie précède la généralisation, et des interventions causales confirment son rôle critique, offrant un modèle prédictif pour le début du grokking.

neural networks grokking Generalization deep learning

RESEARCHarXiv CS.LG·08/04/2026

El Nino Prediction Based on Weather Forecast and Geographical Time-series Data

Este artigo propõe um novo framework para aprimorar a previsão de eventos El Niño, integrando dados de previsão do tempo e geográficos. Ele utiliza uma arquitetura híbrida de deep learning, combinando CNN para extração espacial e LSTM para modelagem temporal, visando identificar precursores complexos.

CNN deep learning Weather Forecasting El Nino Prediction

RESEARCHarXiv CS.LG·17/04/2026

Towards Verified and Targeted Explanations through Formal Methods

Cet article introduit ViTaX, un cadre XAI formel qui génère des explications contrefactuelles ciblées avec des garanties mathématiques. Il comble les lacunes des méthodes XAI existantes qui n'offrent pas de garanties de confiance pour les réseaux neuronaux dans des domaines critiques comme la conduite autonome et le diagnostic médical.

deep learning formal methods Explainable AI Safety-Critical Systems

RESEARCHarXiv CS.CL·17/04/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Cette recherche examine si les Grands Modèles de Langage (LLMs) peuvent identifier les défauts méthodologiques, tels que la fuite de données, dans les études d'apprentissage automatique publiées. Une étude de cas a montré que six LLMs de pointe ont constamment détecté des défauts d'évaluation dans un article de reconnaissance de gestes en raison d'un partitionnement de données non indépendant.

deep learning machine learning large language models AI evaluation

RESEARCHarXiv CS.CL·il y a 20j

Pseudo-Siamese Network for Planning in Target-Oriented Proactive Dialogues

L'article propose un Réseau Pseudo-Siamois Bidirectionnel Focalisé vers l'Avant (FF-BPSN) pour la planification de chemins de dialogue dans les systèmes de dialogue proactifs orientés vers un objectif. Ce réseau utilise des décodeurs identiques basés sur des transformeurs pour la planification bidirectionnelle et intègre des informations pour construire un chemin avant, guidant les modèles de langage dans la génération de réponses.

transformer networks deep learning NLP AI