← heapsort-ai

deep learning

263 items

ARTICLEDEV.to AI·il y a 18j

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

L'article "SilentRecon Deep Dive" explore l'architecture Transformer, expliquant comment elle a surpassé les RNN et les LSTM en permettant le traitement parallèle et l'attention. Cela a entraîné une évolutivité, une formation plus rapide, une compréhension contextuelle approfondie et une inférence en temps réel, en faisant la couche d'intelligence par défaut pour la cybersécurité et l'automatisation.

29
ARTICLEDEV.to AI·18/04/2026

Statistics after the loss of innocence: New rigor in the age of AI

Cet article analyse l'évolution des statistiques à l'ère de l'IA, plaidant pour un passage aux systèmes hybrides et considérant les statistiques comme une discipline d'ingénierie. Il souligne l'importance de protéger les essais cliniques, d'une infrastructure informatique robuste et de nouvelles directives réglementaires comme l'ICH E20 pour gérer les risques.

29
ARTICLEDEV.to AI·il y a 27j

Lambda — Deep Dive

Lambda est un fournisseur spécialisé d'infrastructure d'IA axé sur le calcul GPU et les outils d'apprentissage automatique. Contrairement aux hyperscalers généralistes, la mission de l'entreprise est de permettre des transitions fluides des prototypes aux charges de travail de production massives pour sa clientèle diversifiée.

29
RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.

29
RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Cette étude systématique des spectres de valeurs singulières lors du pré-entraînement des transformateurs révèle trois phénomènes clés : des ondes de compression transitoires et des gradients spectraux persistants. Elle identifie également une asymétrie fonctionnelle Q/K-V, où les projections de requête/clé dictent la dynamique dépendante de la profondeur.

29
RESEARCHarXiv CS.LG·01/05/2026

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Cette étude passe en revue les méthodes d'apprentissage profond pour le décodage EEG inter-sujets, s'attaquant à la variabilité élevée entre les sujets et le décalage de domaine. Elle catégorise la littérature en familles méthodologiques telles que l'alignement de caractéristiques et l'apprentissage contrastif, soulignant l'évaluation rigoureuse et les limitations théoriques.

29
RESEARCHarXiv CS.LG·il y a 19j

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite est une nouvelle sonde au niveau du prompt conçue pour interpréter comment les preuves de sécurité se développent à travers les couches des grands modèles de langage. Elle analyse la géométrie des marges couche par couche en utilisant diverses lectures pour comprendre la formation des frontières, améliorant la détection de sécurité par rapport aux sondes à couche unique.

29
RESEARCHarXiv CS.LG·il y a 17j

Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins

Cette recherche présente GOEN, un nouveau pipeline pour la détection des entrées hors distribution (OOD), combinant des caractéristiques multi-échelles et la distance de Mahalanobis. Elle révèle que CenterLoss dégrade de manière surprenante la performance de détection OOD, GOEN-NoCenterLoss obtenant des résultats de pointe.

29
RESEARCHarXiv CS.LG·il y a 20j

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Cet article propose un cadre évolutif et adaptatif pour améliorer la prédiction spatio-temporelle, en harmonisant les représentations des caractéristiques spatiales et temporelles. Il s'attaque aux goulets d'étranglement des méthodes existantes à l'aide de mesures d'entropie spatiale et temporelle pour les déséquilibres de complexité et l'incertitude de prédiction.

29
RESEARCHarXiv CS.LG·il y a 27j

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Cet article présente -DPO, une optimisation de préférence directe via une marge de récompense par ratio, afin de résoudre le défi de l'ajustement des hyperparamètres dans SimPO. La recherche analyse SimPO et reformule l'objectif de préférence pour améliorer l'interprétabilité sur des ensembles de données avec différentes structures d'écart de récompense.

29
RESEARCHarXiv CS.LG·il y a 27j

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Cet article présente le modèle Convolutional Variational Deep Embedding (Conv-VaDE) pour l'analyse des microétats EEG. Il améliore l'interprétabilité en apprenant conjointement la reconstruction topographique et le regroupement probabiliste doux, permettant le décodage génératif de prototypes de clusters en topographies vérifiables.

29
RESEARCHarXiv CS.LG·il y a 20j

Simply Stabilizing the Loop via Fully Looped Transformer

Les Transformers en Boucle permettent d'améliorer les performances des modèles en réutilisant itérativement les mêmes blocs sans augmenter le nombre de paramètres, mais ils souffrent d'instabilité d'entraînement avec des itérations plus élevées. Cette instabilité est attribuée à l'oscillation du gradient et à l'explosion résiduelle, ce qui a conduit à la proposition du Fully Looped Transformer, qui introduit une architecture entièrement bouclée et une injection d'attention.

29
DOCDEV.to AI·il y a 4j

<think>

Ce contenu détaille le service Global API, offrant l'accès à 184 modèles d'IA avec des tarifs compétitifs, comme DeepSeek V4 Flash à 0.25 $/M et GPT-4o. Il met en avant des fonctionnalités telles qu'un SLA de 99.9 %, 50 requêtes gratuites par minute et des crédits sans expiration, ainsi que des options de canal Pro pour des besoins avancés.

28