deep learning

263 items

RESEARCHDEV.to AI·06/05/2026

RAVE: A variational autoencoder for fast and high-quality neural audio synthesis

RAVE présente un nouvel autoencodeur variationnel conçu pour la synthèse audio neuronale rapide et de haute qualité. Ce modèle améliore significativement l'efficacité et la fidélité de la génération de contenu audio grâce aux techniques d'apprentissage profond.

deep learning audio synthesis neural audio Variational Autoencoder

RESEARCHDEV.to AI·il y a 21j

Ensemble of Deep Convolutional Neural Networks for Learning to Detect RetinalVessels in Fundus Images

Cet article de recherche propose une méthode pour détecter les vaisseaux sanguins rétiniens dans les images du fond d'œil en utilisant un ensemble de Réseaux Neuronaux Convolutifs Profonds. L'approche vise à améliorer la précision diagnostique grâce à l'analyse d'images avancée.

ensemble methods deep learning Convolutional Neural Networks Medical Imaging

RESEARCHDEV.to AI·20/04/2026

Stable Video Infinity: Generating Infinite-Length Videos with Error Recycling

Stable Video Infinity introduit une solution novatrice pour générer des vidéos de durée infinie, surmontant le problème des erreurs accumulées. Son innovation principale est un mécanisme sophistiqué de Recyclage d'Erreurs qui prévient la dégradation visuelle au fil du temps.

deep learning machine learning AI video generation

ARTICLEDEV.to AI·il y a 28j

Multi-Head Attention: Collaborate Instead of Concatenate

Ce contenu explore le mécanisme d'attention multi-têtes dans les modèles d'IA, en se concentrant sur l'idée de collaboration au lieu de concaténation. Il discute probablement d'une approche alternative pour améliorer l'efficacité ou la performance de l'attention.

deep learning Attention Mechanism machine learning AI

RESEARCHarXiv CS.LG·il y a 14j

Iterative Refinement Neural Operators are Learned Fixed-Point Solvers: A Principled Approach to Spectral Bias Mitigation

Cet article introduit l'Opérateur Neuronal de Raffinement Itératif (IRNO) pour atténuer le biais spectral dans les opérateurs neuronaux, en utilisant un module de raffinement appris via l'itération de point fixe. L'IRNO décompose les prédictions en une initialisation grossière suivie de corrections résiduelles successives, réalisant une réduction significative des erreurs dans les systèmes physiques.

deep learning Neural Operators Scientific Computing Iterative Methods

RESEARCHarXiv CS.AI·il y a 4j

An interpretable and trustworthy AI framework for large-scale longitudinal structure-pain association studies using data from the Osteoarthritis Initiative (OAI)

Cette recherche développe un cadre d'IA interprétable combinant la prédiction du score MOAKS par IRM basée sur l'apprentissage profond avec la modélisation statistique pour étudier les relations structure-douleur à grande échelle en utilisant les données de l'OAI. Elle utilise l'apprentissage profond pour la prédiction des caractéristiques MOAKS à partir d'IRM avec quantification de l'incertitude, puis un modèle mixte de classe latente longitudinale pour examiner les associations entre les anomalies structurelles et la douleur au genou.

deep learning Healthcare Osteoarthritis AI

RESEARCHarXiv CS.CL·il y a 4j

Multi-Granularity Reasoning for Natural Language Inference

L'article propose un nouveau Réseau de Raisonnement Multi-Granularité (MGRN) pour l'Inférence en Langage Naturel (NLI). Il aborde les limites des modèles existants basés sur des transformateurs en exploitant des caractéristiques sémantiques hiérarchiques pour capturer des interactions complexes et un raisonnement efficace.

deep learning Natural Language Inference machine learning Natural Language Processing

RESEARCHarXiv CS.LG·06/04/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

Optimization deep learning reinforcement learning Text-to-Image Generation

DOCDEV.to AI·17/04/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Cet article explique pourquoi les valeurs d'auto-attention remplacent les encodages positionnels originaux, car elles intègrent des informations contextuelles de tous les mots, clarifiant les relations. Il introduit ensuite l'empilement de plusieurs couches d'auto-attention, chacune avec des poids uniques, pour capturer des relations linguistiques plus complexes au sein des phrases et des paragraphes.

neural networks Self-Attention deep learning NLP

RESEARCHDEV.to AI·19/04/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM propose une nouvelle approche pour la détection d'objets à vocabulaire ouvert, en tirant parti de manière efficace des modèles de vision et de langage pré-entraînés et figés. Cette méthode permet d'identifier un large éventail d'objets sans nécessiter de données d'entraînement spécifiques pour chaque nouvelle catégorie.

Vision-Language Models deep learning object detection computer vision

RESEARCHDEV.to AI·02/05/2026

Deep convolutional recurrent autoencoders for learning low-dimensional featuredynamics of fluid systems

Ce contenu traite de l'application des auto-encodeurs récurrents convolutionnels profonds pour apprendre la dynamique des caractéristiques de faible dimension dans les systèmes fluides.

Dimensionality Reduction fluid dynamics deep learning autoencoders

RESEARCHDEV.to AI·07/05/2026

Stateless scheduler doubles LLM training speed

Le réglage fin des grands modèles de langage est souvent ralenti par l'allocation rigide des GPU et le parallélisme de pipeline inefficace. Un nouveau planificateur sans état, RoundPipe, optimise l'entraînement en répartissant dynamiquement les étapes de calcul sur un pool de GPU, doublant ainsi efficacement la vitesse d'entraînement des LLM.

deep learning machine learning GPU optimization Parallelism

ARTICLEDEV.to AI·il y a 27j

Comparing AI Approaches for Trade Promotion Strategies in Automotive

Le texte souligne que la "promotion commerciale par IA" englobe un éventail d'approches, des systèmes basés sur des règles à l'apprentissage profond. Les constructeurs automobiles doivent évaluer ces méthodologies en fonction de compromis tels que la précision, la complexité et la maturité des données, de manière similaire au choix des configurations de capteurs ADAS.

deep learning automotive machine learning AI

RESEARCHarXiv CS.LG·07/05/2026

Investigating Trustworthiness of Nonparametric Deep Survival Models for Alzheimer's Disease Progression Analysis

Cette recherche examine la fiabilité et l'équité des modèles de survie profonde non paramétriques pour analyser la progression de la maladie d'Alzheimer (MA). Elle aborde le manque d'études prenant en compte les biais appris dans les modèles d'apprentissage profond pour la MA et propose de nouvelles métriques d'équité pour des prédictions fiables.

deep learning Alzheimer's disease survival analysis medical AI

RESEARCHarXiv CS.LG·il y a 6j

Graph Mamba Survival Analysis Based on Topology-Aware ordering

Cet article aborde les défis de l'analyse de survie des Images de Lames Entières (WSIs), en particulier le goulot d'étranglement computationnel des Transformers et la sensibilité de Mamba à l'ordre d'entrée ainsi que son architecture unidirectionnelle. Il propose une nouvelle approche pour surmonter les limitations de Mamba dans la capture de la connectivité topologique et des structures spatiales bidirectionnelles.

deep learning survival analysis sequence models computational pathology

RESEARCHDEV.to AI·09/05/2026

DeXpression: Deep Convolutional Neural Network for Expression Recognition

DeXpression est un modèle de réseau neuronal convolutif profond conçu pour la reconnaissance précise des expressions faciales. Il vise à améliorer la capacité des systèmes de vision par ordinateur à interpréter les émotions humaines à partir d'images.

facial expression recognition deep learning computer vision Convolutional Neural Networks

RESEARCHarXiv CS.CL·10/04/2026

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Este artigo apresenta um sistema de Reconhecimento de Emoção da Fala (SER) em árabe, baseado em uma arquitetura híbrida CNN-Transformer. O modelo combina camadas convolucionais para extração de características espectrais e codificadores Transformer para capturar dependências temporais, alcançando 97,8% de precisão e 0,98 de F1-score macro.

CNN deep learning Transformer machine learning

RESEARCHDEV.to AI·il y a 13j

MimicMotion: High-Quality Human Motion Video Generation with Confidence-awarePose Guidance

MimicMotion est un projet de recherche axé sur la génération de vidéos de mouvement humain de haute qualité. Il utilise un guidage de pose conscient de la confiance pour améliorer les résultats visuels.

deep learning pose guidance AI video generation

RESEARCHarXiv CS.LG·17/04/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

Les modèles Mixture-of-Experts (MoE) sont sujets aux hallucinations, surtout avec les connaissances à longue traîne, car le routage Top-k statique sous-priorise les experts spécialistes. Le routage contrefactuel (CoR) est proposé comme un cadre d'inférence sans entraînement qui utilise l'analyse de perturbation et le CEI pour déplacer dynamiquement les ressources de calcul, réveillant ainsi ces experts dormants.

neural networks AI hallucinations deep learning Mixture of Experts

RESEARCHarXiv CS.LG·il y a 15j

Reading Calibrated Uncertainty from Language Model Trajectories

Cet article de recherche propose une nouvelle méthode pour quantifier l'incertitude dans les modèles de langage en traçant le chemin cumulatif des mises à jour MLP par couche. En extrayant onze caractéristiques géométriques invariantes à l'échelle, une sonde linéaire clairsemée surpasse la probabilité maximale de softmax dans l'évaluation de l'incertitude.

language models deep learning Uncertainty Quantification model calibration