← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·il y a 7j

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

Le DAStatFormer est un transformateur hybride multi-branches proposé pour surmonter les défis de la grande dimensionnalité et des motifs spatio-temporels complexes en détection acoustique distribuée (DAS). Il intègre des caractéristiques statistiques compactes de plusieurs domaines, réduisant considérablement la taille des données et améliorant la classification des événements.

28
RESEARCHarXiv CS.LG·il y a 5j

Self-Distilled Policy Gradient

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

28
ARTICLEDEV.to AI·22/04/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) est présenté comme la principale méthode PEFT, permettant l'adaptation efficace de LLM massifs comme Llama 3 sans nécessiter de vastes ressources matérielles. L'article promet d'explorer l'intuition mathématique de LoRA, le concept de "dimension intrinsèque" et son impact révolutionnaire pour les ingénieurs en IA.

27
RESEARCHarXiv CS.LG·13/04/2026

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations

Cet article présente la Soft Silhouette Loss, une nouvelle fonction de perte différentiable pour l'apprentissage profond, inspirée du coefficient de silhouette classique. Elle vise à apprendre des représentations discriminatives en favorisant la compacité intra-classe et la séparation inter-classes de manière plus efficace que les méthodes existantes.

27
RESEARCHDEV.to AI·06/05/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Ce contenu explore des techniques avancées pour optimiser l'entraînement des réseaux neuronaux, en se concentrant spécifiquement sur le traitement par micro-lots. Il détaille l'application de la normalisation par canal de lot et de la standardisation des poids pour améliorer les performances et la stabilité du modèle dans des scénarios avec de petites tailles de lot.

27
RESEARCHarXiv CS.LG·20/04/2026

Lightweight Geometric Adaptation for Training Physics-Informed Neural Networks

Les Réseaux Neuronaux Informés par la Physique (PINNs) sont souvent confrontés à une convergence lente et à une instabilité due à la géométrie de leurs paysages de perte. Ce travail propose un cadre d'optimisation léger et conscient de la courbure pour améliorer les optimiseurs de premier ordre, augmentant la vitesse de convergence, la stabilité et la précision des solutions pour les équations aux dérivées partielles (PDEs).

27
RESEARCHarXiv CS.AI·25/04/2026

HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering

HypEHR est un modèle lorentzien compact qui utilise la géométrie hyperbolique pour la réponse aux questions sur les dossiers de santé électroniques (DSE), abordant les défis de coût et de structure hiérarchique des méthodes basées sur les LLM. Pré-entraîné pour la prédiction de diagnostic et l'alignement avec les ontologies médicales, il approche les performances des LLM avec beaucoup moins de paramètres.

27
RESEARCHarXiv CS.LG·09/04/2026

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Este artigo apresenta o AgriPriceBD, um novo conjunto de dados diário de preços de commodities agrícolas de Bangladesh, extraído com auxílio de LLM. Ele avalia sete abordagens de previsão, incluindo modelos clássicos e arquiteturas de deep learning, para estabilização da renda e segurança alimentar.

27
RESEARCHarXiv CS.LG·il y a 26j

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI propose un nouveau cadre d'initialisation des poids pour les réseaux neuronaux aléatoires (RdNNs) qui résout la limitation de l'initialisation aléatoire conventionnelle ignorant la dépendance inter-caractéristiques. Il utilise une copule ajustée aux données pour garantir que les projections figées respectent la dépendance empirique, améliorant le conditionnement et les performances prédictives.

27
RESEARCHarXiv CS.LG·il y a 28j

Geometry-free prediction of inertial lift forces in microfluidic devices using deep learning

Cet article développe une nouvelle approche pour prédire les forces de portance inertielles dans les dispositifs microfluidiques en utilisant l'apprentissage profond, sans paramètres géométriques explicites. Le modèle de réseau neuronal entraîné est capable de généraliser à des géométries de canal non vues tout en affichant des performances comparables.

27
RESEARCHarXiv CS.LG·il y a 7j

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Cet article introduit les Réseaux Tensoriaux Non Linéaires Différentiables Automatiquement (ADNTNs), une famille de générateurs de poids structurés pour la compression exponentielle des Réseaux Neuronaux Profonds. L'approche est une extension naturelle de l'adaptation de faible rang et de la factorisation tensorielle, utilisant une hiérarchie de petits cœurs et d'activations non linéaires.

27