← heapsort-ai

deep learning

263 items

ARTICLEDEV.to AI·19/04/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Cet article explore les limites des LSTMs dans le maintien du contexte, malgré leurs capacités de mémoire améliorées par rapport aux RNNs classiques. L'auteur utilise son expérience personnelle d'apprentissage de l'anglais pour illustrer les trois problèmes spécifiques que les LSTMs ne résolvent toujours pas, préparant le terrain pour la discussion des mécanismes d'attention.

27
RESEARCHDEV.to AI·27/04/2026

An Attention Free Transformer

Ce contenu présente le concept d'un Transformer sans attention, une nouvelle conception architecturale visant à reproduire les capacités des Transformers traditionnels sans le mécanisme d'auto-attention. Il explore probablement des mécanismes alternatifs pour le traitement des informations contextuelles dans les tâches de séquence à séquence.

27
RESEARCHarXiv CS.LG·15/04/2026

Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids

Cette recherche présente le Thermodynamic Liquid Manifold Network (TLMN), un modèle d'apprentissage profond contraint par la physique pour la prévision solaire dans les microréseaux autonomes hors réseau. Il résout les anomalies critiques des modèles actuels en intégrant la thermodynamique atmosphérique et la mécanique céleste pour éviter les prévisions physiquement impossibles.

27
RESEARCHarXiv CS.LG·15/04/2026

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Cet article propose un nouveau cadre basé sur le bootstrap pour la quantification de l'incertitude (UQ) dans les réseaux neuronaux convolutifs (CNN), répondant au manque d'outils UQ théoriquement cohérents. La méthode utilise des réseaux de neurones convexifiés pour établir une cohérence théorique, offre une charge computationnelle significativement moindre et explore une nouvelle approche d'apprentissage par transfert.

27
RESEARCHarXiv CS.AI·25/04/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Ce travail présente un cadre innovant pour l'allocation adaptative de calcul au moment des tests, ajustant conjointement où la computation est dépensée et comment la génération est effectuée. La méthode utilise une phase d'échauffement pour identifier les requêtes faciles, puis concentre le calcul supplémentaire sur les requêtes non résolues, en remodelant les distributions de génération avec des démonstrations en contexte évolutives.

27
RESEARCHarXiv CS.LG·05/05/2026

Fast Log-Domain Sinkhorn Optimal Transport with Warp-Level GPU Reductions

Cet article présente FastSinkhorn, une implémentation CUDA native de l'algorithme de Sinkhorn en domaine logarithmique, offrant des solutions plus rapides et stables pour les problèmes de transport optimal (OT). Il atteint une accélération de 12x par rapport à la bibliothèque POT et de 5,9x par rapport aux bases de PyTorch accélérées par GPU, tout en maintenant la stabilité numérique pour de petits paramètres de régularisation.

27
RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Cet article présente le Length Value Model (LenVM), un nouveau cadre au niveau du token pour modéliser la longueur de génération restante dans les modèles autorégressifs. En formulant la modélisation de la longueur comme un problème d'estimation de valeur, LenVM fournit un signal efficace, sans annotation et évolutif pour les LLM et VLM, améliorant les performances sur les tâches de correspondance exacte de longueur.

27
RESEARCHarXiv CS.LG·27/04/2026

LTBs-KAN: Linear-Time B-splines Kolmogorov-Arnold Networks

LTBs-KAN est une nouvelle architecture de réseau neuronal qui résout la lenteur des KANs traditionnels en offrant une complexité linéaire et une réduction des paramètres. La recherche démontre des améliorations de l'efficacité computationnelle et de la réduction des paramètres sur des ensembles de données comme MNIST, Fashion-MNIST et CIFAR-10.

27
RESEARCHarXiv CS.LG·01/05/2026

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Les modèles de diffusion masqués (MDMs) ignorent les prédictions d'état propre pour les jetons qui restent masqués, limitant le raffinement inter-étapes. Cet article propose les modèles de diffusion masqués auto-conditionnés (SCMDM), une adaptation post-entraînement qui conditionne chaque étape de débruitage sur les prédictions d'état propre précédentes du modèle lui-même. Cela améliore les performances sans changements architecturaux majeurs ni évaluations supplémentaires.

27
RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Cette recherche étudie la nécessité des jetons de mémoire appris comme bloc-notes computationnel pour les Universal Transformers avec Temps de Calcul Adaptatif (ACT) sur un benchmark de raisonnement combinatoire. Elle conclut que les jetons de mémoire sont empiriquement nécessaires pour une performance non triviale, identifiant un seuil inférieur net pour le nombre optimal et un piège courant d'initialisation de routeur.

27
RESEARCHarXiv CS.LG·08/05/2026

Are Flat Minima an Illusion?

Cet article remet en question l'idée selon laquelle les minima plats conduisent intrinsèquement à une meilleure généralisation, montrant qu'une reparamétrisation préservant la fonction peut modifier drastiquement la netteté perçue d'un minimum. Il introduit la « faiblesse » — une mesure invariante à la reparamétrisation basée sur ce que fait le réseau — comme le véritable moteur de la généralisation, prouvant son optimalité minimax et sa corrélation avec les bornes PAC-Bayes.

27
RESEARCHarXiv CS.LG·16/04/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Cet article identifie l'entropie spectrale normalisée comme un paramètre d'ordre scalaire pour la transition de grokking, où les modèles généralisent longtemps après la mémorisation. La recherche montre que l'effondrement de l'entropie précède la généralisation, et des interventions causales confirment son rôle critique, offrant un modèle prédictif pour le début du grokking.

27
RESEARCHarXiv CS.LG·17/04/2026

Towards Verified and Targeted Explanations through Formal Methods

Cet article introduit ViTaX, un cadre XAI formel qui génère des explications contrefactuelles ciblées avec des garanties mathématiques. Il comble les lacunes des méthodes XAI existantes qui n'offrent pas de garanties de confiance pour les réseaux neuronaux dans des domaines critiques comme la conduite autonome et le diagnostic médical.

27
RESEARCHarXiv CS.CL·17/04/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Cette recherche examine si les Grands Modèles de Langage (LLMs) peuvent identifier les défauts méthodologiques, tels que la fuite de données, dans les études d'apprentissage automatique publiées. Une étude de cas a montré que six LLMs de pointe ont constamment détecté des défauts d'évaluation dans un article de reconnaissance de gestes en raison d'un partitionnement de données non indépendant.

27
RESEARCHarXiv CS.CL·il y a 20j

Pseudo-Siamese Network for Planning in Target-Oriented Proactive Dialogues

L'article propose un Réseau Pseudo-Siamois Bidirectionnel Focalisé vers l'Avant (FF-BPSN) pour la planification de chemins de dialogue dans les systèmes de dialogue proactifs orientés vers un objectif. Ce réseau utilise des décodeurs identiques basés sur des transformeurs pour la planification bidirectionnelle et intègre des informations pour construire un chemin avant, guidant les modèles de langage dans la génération de réponses.

27