deep learning

263 items

RESEARCH↑ trendingHacker News (AI)·il y a 5h

Yann LeCun: World Models: Enabling the Next AI Revolution [video]

Cette vidéo présente Yann LeCun discutant des "Modèles du Monde", une architecture prometteuse pour la prochaine génération d'IA. Il explore comment ces modèles peuvent permettre aux machines d'apprendre à prédire et interagir avec leur environnement, menant à des systèmes d'IA plus intelligents et polyvalents.

future-of-AI AI models deep learning machine learning

RESEARCHarXiv CS.LG·il y a 1j

Multi-Scale Feature Attention Network for Polymer Classification using THz Dual-Comb Spectroscopy

Cette recherche propose le Multi-Scale Feature Attention Network (MSFAN), une nouvelle architecture d'apprentissage profond pour classifier 12 types de polymères en utilisant la spectroscopie à peigne double térahertz (THz-DCS). Le cadre aborde l'identification fiable des polymères pour les plastiques recyclés en intégrant le filtrage des caractéristiques et des convolutions parallèles multi-échelle.

polymer classification deep learning spectroscopy

RESEARCHarXiv CS.LG·il y a 1j

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

L'article présente WAV v1, une méthode légère de routage résiduel multi-résolution pour les Transformers de type décodeur uniquement. Il améliore les connexions résiduelles standard en augmentant chaque bloc avec des bases de détails directionnelles qui contrastent les mises à jour attention et MLP, et les dynamiques des sous-couches précoces et tardives.

Residual Connections neural networks deep learning Model Architecture

RESEARCHarXiv CS.LG·il y a 1j

Principles and Practice of Deep Representation Learning: or a Mathematical Theory of Memory

Ce livre vise à démystifier les grands réseaux profonds et les modèles génératifs, souvent perçus comme des "boîtes noires", en explorant leurs mécanismes internes à travers la perspective de l'apprentissage de représentations. Il décrit les principes de conception des architectures de réseaux neuronaux modernes, en utilisant l'optimisation et la théorie de l'information.

neural networks deep learning learning generative models

ARTICLEHugging Face (YouTube)·il y a 10h

What Is ONNX? (And Why Transformers.js Uses It)

ONNX (Open Neural Network Exchange) est un standard ouvert définissant un format de graphe commun pour les modèles d'apprentissage automatique, permettant l'interopérabilité entre divers frameworks de ML. Transformers.js utilise ONNX pour exécuter des modèles transformeurs pré-entraînés directement dans le navigateur, offrant des capacités d'inférence IA efficaces et agnostiques de la plateforme pour les applications web.

AI models ONNX deep learning machine learning

What Is ONNX? (And Why Transformers.js Uses It)

RESEARCHDEV.to AI·il y a 16h

Quality of Uncertainty Quantification for Bayesian Neural Network Inference

Ce contenu explore l'aspect critique de l'évaluation de la qualité de la quantification de l'incertitude spécifiquement dans l'inférence des réseaux de neurones bayésiens. Il aborde probablement des méthodologies pour évaluer et améliorer la fiabilité des estimations d'incertitude prédictive dans les modèles d'IA.

deep learning Uncertainty Quantification machine learning AI

RESEARCHarXiv CS.LG·il y a 19h

MedicalRec: Medical recommender system for image classification without retraining

Cette étude introduit MedicalRec, un système de recommandation médicale pour la classification d'images, conçu pour optimiser la sélection de modèles sans réentraînement. Il s'attaque aux défis computationnels et énergétiques liés à l'identification des modèles en utilisant un ensemble de données public, MedicalRec-Bench, compilé à partir de 3 000 articles et de plus de 5 000 enregistrements de modèles testés.

recommender systems deep learning machine learning healthcare AI

RESEARCHarXiv CS.LG·il y a 19h

TriHead-GAN: A Generative Adversarial Network with Triple-Head Discriminator for Carbon Emission Time Series Generation

TriHead-GAN propose un Réseau Génératif Adversarial basé sur Transformer avec un discriminateur à triple tête pour pallier la rareté des données d'émissions de carbone au niveau des villes. Ce cadre améliore la génération de séries temporelles en préservant mieux les corrélations inter-variables et la variabilité réaliste par rapport aux modèles existants.

deep learning Carbon Emissions Time Series Analysis Climate AI

RESEARCHarXiv CS.LG·il y a 19h

STARIXNet: Multivariate and Multi-attribute Deep Learning Approach to Real-Time Resource Allocation in Cloud Platforms

L'article présente STARIXNet, un réseau neuronal léger pour l'allocation de ressources dans les plateformes cloud, qui s'attaque aux limites des solutions univariées actuelles qui négligent les risques de sous-estimation et de retards. Cette approche d'apprentissage profond capture les relations spatio-temporelles et de multiples attributs pour guider les décisions intelligentes de mise à l'échelle des microservices.

neural networks microservices deep learning cloud computing

RESEARCHarXiv CS.AI·il y a 19h

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem est un cadre de streaming économe en mémoire pour les LLM audio-visuels, conçu pour surmonter les limitations de l'inférence vidéo longue dues à l'augmentation des jetons vidéo et des caches KV. Il utilise une allocation de mémoire sensible à la modalité et une sélection de mémoire consciente des perturbations pour préserver les états KV informatifs, améliorant la compression et la compréhension à longue portée.

LLMs Audio-Visual AI deep learning Streaming

RESEARCHDEV.to AI·il y a 2j

DurIAN: Duration Informed Attention Network For Multimodal Synthesis

DurIAN est un Réseau d'Attention Informé par la Durée pour la synthèse multimodale. Ce travail porte sur l'architecture d'un modèle d'IA conçu pour générer des sorties cohérentes et synchronisées sur plusieurs modalités.

attention networks multimodal AI deep learning speech synthesis

NEWS↑ trendingHacker News (AI)·il y a 3j

AI Memory Proves Inefficient: Tenure Project Detects 95% Error Rate

Un projet récent a révélé un taux d'erreur de 95% dans la mémoire de l'IA, soulignant son inefficacité. Cette découverte soulève des préoccupations importantes concernant la fiabilité et les performances des systèmes d'intelligence artificielle.

Error Rate research deep learning AI Efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Un nouveau livre et du code open source sont publiés, détaillant comment construire des architectures LLM modernes comme GPT-2, Llama 3 et DeepSeek à partir de zéro avec PyTorch. Il explique les modifications architecturales pour transformer GPT-2 en Llama 3 et implémente les fonctionnalités avancées de DeepSeek.

Open Source deep learning Transformer Models PyTorch

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Video of how my LLM's decoder blocks changed while training

Ce contenu présente une vidéo montrant comment les blocs de décodeur d'un LLM ont changé pendant l'entraînement, faisant suite à une publication populaire précédente. L'auteur partage des données visuelles pour illustrer le processus d'évolution du modèle.

neural networks deep learning Training decoder blocks

Video of how my LLM's decoder blocks changed while training

ARTICLEDEV.to AI·il y a 1j

Building a Multilayer Perceptron from Scratch: What It Taught Me About Neural Networks

L'auteur a construit un Perceptron Multi-couches (MLP) à partir de zéro avec NumPy pour acquérir une compréhension approfondie des mécanismes des réseaux neuronaux, tels que la rétropropagation et le calcul des gradients. Ce projet a considérablement amélioré sa compréhension de la manière dont les modèles d'apprentissage profond apprennent des motifs significatifs.

neural networks deep learning learning Python

ARTICLE↑ trendingReddit r/MachineLearning·11/04/2026

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

Un dépôt PyTorch mis à jour présente des implémentations éducatives des versions FA1 à FA4 de FlashAttention. L'objectif est de démontrer les différences et l'évolution algorithmique de la méthode, facilitant ainsi la compréhension de ses idées de conception sans aborder les détails matériels.

FlashAttention deep learning Attention Mechanism Algorithms

RESEARCH↑ trendingReddit r/MachineLearning·18/04/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

Il s'agit d'une bibliothèque PyTorch unifiée pour l'apprentissage profond de nuages de points 3D, prenant en charge 56 configurations prêtes à l'emploi et une validation croisée intégrée. LIDARLearn automatise également la génération de PDF LaTeX prêts à être publiés après l'entraînement, ce qui le rend idéal pour les chercheurs en vision par ordinateur 3D et en télédétection.

Open Source deep learning computer vision 3d-point-cloud

We’re proud to open-source LIDARLearn [R] [D] [P]

RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un développeur a entraîné des modèles de deep learning basés sur des transformateurs pour jouer aux échecs comme des humains dans diverses catégories de classement, y compris la prédiction du temps de réflexion. Les modèles ont été entraînés avec des données Lichess et ont atteint une précision comparable à MAIA-3, malgré leur petite taille.

AI models deep learning chess AI model training

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Ce dépôt éducatif PyTorch implémente diverses techniques de parallélisme pour l'entraînement distribué (DP, FSDP, TP, PP) à partir de zéro. Il expose explicitement la logique de forward/backward et les collectifs, permettant de comprendre directement les algorithmes et les modèles de communication sans abstractions de haut niveau.

distributed training FSDP deep learning Parallelism

NEWS↑ trendingReddit r/LocalLLaMA·23/04/2026

Deepseek has released DeepEP V2 and TileKernels.

Deepseek a annoncé la sortie de DeepEP V2 et TileKernels. Ces projets, disponibles sur GitHub, représentent de nouveaux développements dans leurs offres logicielles liées à l'IA.

Open Source deep learning AI development