deep learning

263 items

RESEARCHDEV.to AI·il y a 3j

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

Ce travail présente une méthode de génération de légendes d'images, utilisant l'attention basée sur les régions et la factorisation de scène pour améliorer la pertinence et la précision descriptive. Il vise à aligner plus efficacement la perception visuelle avec la narration textuelle.

scene understanding deep learning computer vision attention mechanisms

ARTICLEDEV.to AI·il y a 18j

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

L'article "SilentRecon Deep Dive" explore l'architecture Transformer, expliquant comment elle a surpassé les RNN et les LSTM en permettant le traitement parallèle et l'attention. Cela a entraîné une évolutivité, une formation plus rapide, une compréhension contextuelle approfondie et une inférence en temps réel, en faisant la couche d'intelligence par défaut pour la cybersécurité et l'automatisation.

Transformer Architecture cybersecurity deep learning learning

RESEARCHarXiv CS.AI·il y a 20j

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Cet article introduit Learn-by-Wire Guard (LBW-Guard), une couche de gouvernance de contrôle d'entraînement autonome pour les modèles de langage. Il vise à améliorer la stabilité et l'efficacité de l'entraînement, réduisant considérablement la perplexité finale.

language models deep learning AI training model stability

ARTICLEDEV.to AI·18/04/2026

Statistics after the loss of innocence: New rigor in the age of AI

Cet article analyse l'évolution des statistiques à l'ère de l'IA, plaidant pour un passage aux systèmes hybrides et considérant les statistiques comme une discipline d'ingénierie. Il souligne l'importance de protéger les essais cliniques, d'une infrastructure informatique robuste et de nouvelles directives réglementaires comme l'ICH E20 pour gérer les risques.

regulatory compliance deep learning AI risk management

RESEARCHDEV.to AI·15/04/2026

Alzheimer's Disease Diagnostics by a Deeply Supervised Adaptable 3DConvolutional Network

Ce contenu présente une méthodologie pour le diagnostic de la maladie d'Alzheimer utilisant un réseau convolutif 3D profondément supervisé et adaptable. La recherche explore l'utilisation de l'apprentissage profond avancé pour améliorer la précision du diagnostic médical par imagerie.

deep learning Convolutional Neural Networks 3D CNN AI

ARTICLEDEV.to AI·il y a 27j

Lambda — Deep Dive

Lambda est un fournisseur spécialisé d'infrastructure d'IA axé sur le calcul GPU et les outils d'apprentissage automatique. Contrairement aux hyperscalers généralistes, la mission de l'entreprise est de permettre des transitions fluides des prototypes aux charges de travail de production massives pour sa clientèle diversifiée.

GPU compute deep learning cloud computing machine learning

RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Cette étude systématique des spectres de valeurs singulières lors du pré-entraînement des transformateurs révèle trois phénomènes clés : des ondes de compression transitoires et des gradients spectraux persistants. Elle identifie également une asymétrie fonctionnelle Q/K-V, où les projections de requête/clé dictent la dynamique dépendante de la profondeur.

neural networks deep learning Model Analysis training dynamics

RESEARCHarXiv CS.LG·01/05/2026

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Cette étude passe en revue les méthodes d'apprentissage profond pour le décodage EEG inter-sujets, s'attaquant à la variabilité élevée entre les sujets et le décalage de domaine. Elle catégorise la littérature en familles méthodologiques telles que l'alignement de caractéristiques et l'apprentissage contrastif, soulignant l'évaluation rigoureuse et les limitations théoriques.

Generalization deep learning Biomedical AI EEG

RESEARCHarXiv CS.LG·il y a 19j

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite est une nouvelle sonde au niveau du prompt conçue pour interpréter comment les preuves de sécurité se développent à travers les couches des grands modèles de langage. Elle analyse la géométrie des marges couche par couche en utilisant diverses lectures pour comprendre la formation des frontières, améliorant la détection de sécurité par rapport aux sondes à couche unique.

deep learning Probing interpretability large language models

RESEARCHarXiv CS.LG·il y a 17j

Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins

Cette recherche présente GOEN, un nouveau pipeline pour la détection des entrées hors distribution (OOD), combinant des caractéristiques multi-échelles et la distance de Mahalanobis. Elle révèle que CenterLoss dégrade de manière surprenante la performance de détection OOD, GOEN-NoCenterLoss obtenant des résultats de pointe.

OOD Detection Epistemic Uncertainty Feature Engineering deep learning

RESEARCHarXiv CS.LG·il y a 20j

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Cet article propose un cadre évolutif et adaptatif pour améliorer la prédiction spatio-temporelle, en harmonisant les représentations des caractéristiques spatiales et temporelles. Il s'attaque aux goulets d'étranglement des méthodes existantes à l'aide de mesures d'entropie spatiale et temporelle pour les déséquilibres de complexité et l'incertitude de prédiction.

model performance deep learning spatiotemporal prediction machine learning

RESEARCHarXiv CS.LG·il y a 27j

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Cet article présente -DPO, une optimisation de préférence directe via une marge de récompense par ratio, afin de résoudre le défi de l'ajustement des hyperparamètres dans SimPO. La recherche analyse SimPO et reformule l'objectif de préférence pour améliorer l'interprétabilité sur des ensembles de données avec différentes structures d'écart de récompense.

Preference Optimization deep learning reinforcement learning Hyperparameter Tuning

RESEARCHarXiv CS.LG·il y a 27j

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Cet article présente le modèle Convolutional Variational Deep Embedding (Conv-VaDE) pour l'analyse des microétats EEG. Il améliore l'interprétabilité en apprenant conjointement la reconstruction topographique et le regroupement probabiliste doux, permettant le décodage génératif de prototypes de clusters en topographies vérifiables.

deep learning machine learning Neuroscience medical AI

RESEARCHarXiv CS.LG·il y a 20j

Simply Stabilizing the Loop via Fully Looped Transformer

Les Transformers en Boucle permettent d'améliorer les performances des modèles en réutilisant itérativement les mêmes blocs sans augmenter le nombre de paramètres, mais ils souffrent d'instabilité d'entraînement avec des itérations plus élevées. Cette instabilité est attribuée à l'oscillation du gradient et à l'explosion résiduelle, ce qui a conduit à la proposition du Fully Looped Transformer, qui introduit une architecture entièrement bouclée et une injection d'attention.

neural networks AI architecture deep learning model training

DOCAWS Machine Learning Blog·il y a 6j

Reducing container cold start times using SOCI index on DLAMI and DLC

Cet article explique comment utiliser l'indice SOCI sur les AMI et conteneurs de Deep Learning disponibles publiquement pour réduire les temps de démarrage à froid. Il couvre les différents modes de SOCI et comment l'implémenter efficacement dans vos charges de travail.

Containers SOCI deep learning cloud computing

RESEARCHarXiv CS.LG·il y a 5j

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant est un nouveau cadre pour le contrôle continu de la largeur de bit dans les Modèles de Langage de Grande Taille, résolvant les limitations de la quantification basée sur des entiers. Il utilise un mécanisme de "levée puis projection" pour un réglage quasi continu de la largeur de bit pour un déploiement optimal.

Model Compression neural networks LLMs deep learning

DOCDEV.to AI·il y a 4j

<think>

Ce contenu détaille le service Global API, offrant l'accès à 184 modèles d'IA avec des tarifs compétitifs, comme DeepSeek V4 Flash à 0.25 $/M et GPT-4o. Il met en avant des fonctionnalités telles qu'un SLA de 99.9 %, 50 requêtes gratuites par minute et des crédits sans expiration, ainsi que des options de canal Pro pour des besoins avancés.

AI models deep learning cloud services API

RESEARCHDEV.to AI·10/04/2026

Deep Reinforcement Learning for Sepsis Treatment

Este conteúdo aborda a aplicação de Aprendizado por Reforço Profundo para o tratamento de sepse, uma condição médica grave. Ele explora como técnicas avançadas de IA podem otimizar decisões terapêuticas em ambientes clínicos complexos.

Medical Treatment deep learning reinforcement learning Sepsis

RESEARCHDEV.to AI·08/04/2026

An All-in-One Network for Dehazing and Beyond

Este conteúdo explora uma rede neural unificada projetada para remover neblina de imagens e potencialmente realizar outras tarefas de processamento de imagem. Aborda soluções avançadas em visão computacional e inteligência artificial.

Image processing deep learning computer vision Dehazing