deep learning

263 items

RESEARCHarXiv CS.LG·il y a 7j

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

Le DAStatFormer est un transformateur hybride multi-branches proposé pour surmonter les défis de la grande dimensionnalité et des motifs spatio-temporels complexes en détection acoustique distribuée (DAS). Il intègre des caractéristiques statistiques compactes de plusieurs domaines, réduisant considérablement la taille des données et améliorant la classification des événements.

deep learning machine learning pattern recognition distributed acoustic sensing

RESEARCHarXiv CS.LG·il y a 5j

Self-Distilled Policy Gradient

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

language models deep learning reinforcement learning Policy Gradient

ARTICLEDEV.to AI·22/04/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) est présenté comme la principale méthode PEFT, permettant l'adaptation efficace de LLM massifs comme Llama 3 sans nécessiter de vastes ressources matérielles. L'article promet d'explorer l'intuition mathématique de LoRA, le concept de "dimension intrinsèque" et son impact révolutionnaire pour les ingénieurs en IA.

LLMs deep learning Fine-tuning PEFT

RESEARCHTogether AI Blog·15/04/2026

Parcae: Doing more with fewer parameters using stable looped models

Parcae est un modèle de langage stable en boucle qui égale la qualité des Transformers deux fois plus grands avec moins de paramètres. Il introduit les premières lois de mise à l'échelle pour le bouclage, montrant que l'augmentation de la récurrence est une voie efficace en termes de calcul pour de meilleures performances.

language models deep learning efficiency model optimization

ARTICLEDEV.to AI·11/04/2026

Deep Learning on FPGAs: Past, Present, and Future

Cet article examine l'évolution du Deep Learning sur FPGAs, couvrant son développement passé, son état actuel et ses orientations futures. Il souligne également l'importance cruciale de l'accélération matérielle pour l'avancement de l'intelligence artificielle.

Hardware Acceleration FPGAs deep learning machine learning

ARTICLEDEV.to AI·01/05/2026

I Rebuilt Karpathy's NanoChat in JAX. Here's What XLA Gets Right and What It Gets Dead Wrong.

Ce contenu décrit le portage du NanoChat d'Andrej Karpathy de PyTorch vers JAX/Flax NNX, permettant un entraînement rapide sur un seul GPU et la compatibilité TPU. Il détaille les avantages de XLA pour éliminer la surcharge de Python tout en soulignant ses limites concernant les fonctionnalités avancées et le débogage.

deep learning XLA JAX PyTorch

RESEARCHDEV.to AI·20/04/2026

Audio Spectrogram Representations for Processing with Convolutional NeuralNetworks

Ce contenu explore les représentations de spectrogrammes audio pour le traitement avec les Réseaux Neuronaux Convolutifs. Il se concentre sur la manière dont ces représentations visuelles du son peuvent être utilisées efficacement par les CNN pour diverses tâches.

deep learning audio processing Convolutional Neural Networks spectrograms

ARTICLEDEV.to AI·25/04/2026

The hidden engine behind the AI Revolution: The Transformer

Le véritable moteur derrière la révolution de l'IA n'est pas ChatGPT, mais l'architecture Transformer, introduite par l'article « Attention Is All You Need ». Cette innovation a permis le traitement parallèle massif du langage, utilisant les GPU et changeant fondamentalement la compréhension des machines.

AI history deep learning Transformer NLP

RESEARCHDEV.to AI·02/05/2026

Accelerating CNN inference on FPGAs: A Survey

Cet article de synthèse examine diverses techniques et méthodes pour accélérer l'inférence des Réseaux Neuronaux Convolutifs (CNN) spécifiquement sur les FPGA. Il offre un aperçu des recherches existantes et des approches architecturales pour améliorer les performances et l'efficacité des déploiements de CNN sur matériel.

Hardware Acceleration deep learning FPGA computer vision

RESEARCHDEV.to AI·il y a 12j

Graph-MLP: Node Classification without Message Passing in Graph

Graph-MLP présente une nouvelle approche pour la classification de nœuds dans les réseaux neuronaux graphiques, s'éloignant des mécanismes traditionnels de passage de messages. Cette méthode vise à améliorer l'efficacité et les performances en classifiant les nœuds directement au sein de la structure du graphe.

deep learning Graph Neural Networks machine learning Graph-MLP

RESEARCHDEV.to AI·26/04/2026

Squared Earth Mover's Distance-based Loss for Training Deep Neural Networks

Ce contenu présente une nouvelle fonction de perte pour l'entraînement des réseaux de neurones profonds, basée sur la Distance de l'Ouvrier de la Terre au Carré. Il vise à améliorer l'efficacité des modèles d'apprentissage profond en offrant une mesure plus robuste pour comparer les distributions de probabilité.

neural networks deep learning machine learning loss functions

ARTICLEDEV.to AI·il y a 6j

Gemma 4 12B: Google's Encoder-Free Multimodal AI

Gemma 4 12B est le modèle multimodal sans encodeur et en libre accès de Google DeepMind, traitant le texte, les images et la vidéo dans une architecture unifiée. Avec 12 milliards de paramètres, il excelle dans les benchmarks et offre une empreinte efficace pour les développeurs et les chercheurs.

multimodal AI deep learning Gemma 4 12B Google DeepMind

RESEARCHarXiv CS.LG·13/04/2026

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations

Cet article présente la Soft Silhouette Loss, une nouvelle fonction de perte différentiable pour l'apprentissage profond, inspirée du coefficient de silhouette classique. Elle vise à apprendre des représentations discriminatives en favorisant la compacité intra-classe et la séparation inter-classes de manière plus efficace que les méthodes existantes.

Classification metric learning deep learning loss functions

RESEARCHDEV.to AI·06/05/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Ce contenu explore des techniques avancées pour optimiser l'entraînement des réseaux neuronaux, en se concentrant spécifiquement sur le traitement par micro-lots. Il détaille l'application de la normalisation par canal de lot et de la standardisation des poids pour améliorer les performances et la stabilité du modèle dans des scénarios avec de petites tailles de lot.

neural networks batch-normalization Optimization deep learning

RESEARCHarXiv CS.LG·20/04/2026

Lightweight Geometric Adaptation for Training Physics-Informed Neural Networks

Les Réseaux Neuronaux Informés par la Physique (PINNs) sont souvent confrontés à une convergence lente et à une instabilité due à la géométrie de leurs paysages de perte. Ce travail propose un cadre d'optimisation léger et conscient de la courbure pour améliorer les optimiseurs de premier ordre, augmentant la vitesse de convergence, la stabilité et la précision des solutions pour les équations aux dérivées partielles (PDEs).

Optimization deep learning Physics-Informed Neural Networks machine learning

RESEARCHarXiv CS.AI·25/04/2026

HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering

HypEHR est un modèle lorentzien compact qui utilise la géométrie hyperbolique pour la réponse aux questions sur les dossiers de santé électroniques (DSE), abordant les défis de coût et de structure hiérarchique des méthodes basées sur les LLM. Pré-entraîné pour la prédiction de diagnostic et l'alignement avec les ontologies médicales, il approche les performances des LLM avec beaucoup moins de paramètres.

Question Answering deep learning healthcare AI EHR

RESEARCHarXiv CS.LG·09/04/2026

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Este artigo apresenta o AgriPriceBD, um novo conjunto de dados diário de preços de commodities agrícolas de Bangladesh, extraído com auxílio de LLM. Ele avalia sete abordagens de previsão, incluindo modelos clássicos e arquiteturas de deep learning, para estabilização da renda e segurança alimentar.

previsão de preços agrícolas deep learning machine learning segurança alimentar

RESEARCHarXiv CS.LG·il y a 26j

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI propose un nouveau cadre d'initialisation des poids pour les réseaux neuronaux aléatoires (RdNNs) qui résout la limitation de l'initialisation aléatoire conventionnelle ignorant la dépendance inter-caractéristiques. Il utilise une copule ajustée aux données pour garantir que les projections figées respectent la dépendance empirique, améliorant le conditionnement et les performances prédictives.

neural networks deep learning machine learning data science

RESEARCHarXiv CS.LG·il y a 28j

Geometry-free prediction of inertial lift forces in microfluidic devices using deep learning

Cet article développe une nouvelle approche pour prédire les forces de portance inertielles dans les dispositifs microfluidiques en utilisant l'apprentissage profond, sans paramètres géométriques explicites. Le modèle de réseau neuronal entraîné est capable de généraliser à des géométries de canal non vues tout en affichant des performances comparables.

neural networks deep learning microfluidics inertial lift forces

RESEARCHarXiv CS.LG·il y a 7j

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Cet article introduit les Réseaux Tensoriaux Non Linéaires Différentiables Automatiquement (ADNTNs), une famille de générateurs de poids structurés pour la compression exponentielle des Réseaux Neuronaux Profonds. L'approche est une extension naturelle de l'adaptation de faible rang et de la factorisation tensorielle, utilisant une hiérarchie de petits cœurs et d'activations non linéaires.

deep learning Automatic Differentiation machine learning Neural Network Compression