deep learning

263 items

RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

Struggling with Chebyshev Filter Integration in CNN — Any Advice? [R]

Un utilisateur peine à intégrer des filtres de Chebyshev dans une architecture CNN pour améliorer les performances, constatant que les résultats actuels sont similaires au modèle de base. Il cherche des conseils sur l'intégration, le placement et le réglage des filtres, ainsi que l'expérience d'autres utilisateurs.

CNN deep learning feature extraction Chebyshev filter

NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI a mis en open-source FlashKDA, un noyau CUTLASS C++ pour Kimi Delta Attention, offrant des améliorations de performance allant jusqu'à 2.22x par rapport à la ligne de base Triton sur H20. Cette implémentation optimise les architectures d'attention linéaire.

Open Source deep learning Performance optimization attention mechanisms

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

NEWS↑ trendingReddit r/MachineLearning·24/04/2026

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]

Un nouvel optimiseur PyTorch nommé 'Rose' a été lancé, promettant une faible utilisation de VRAM, une convergence rapide et une excellente généralisation, sous licence Apache 2.0. Développé pendant plusieurs années, il vise à être facile à utiliser et plus économe en mémoire qu'AdamW 8 bits.

deep learning machine learning VRAM Optimization optimizer

DOC↑ trendingReddit r/LocalLLaMA·27/04/2026

To 16GB VRAM users, plug in your old GPU

Ce contenu suggère que les utilisateurs avec 16 Go de VRAM ajoutent une ancienne carte graphique (6 Go+ VRAM) pour augmenter la VRAM totale, permettant l'exécution de modèles LLM plus grands (~30b) même avec une carte secondaire plus faible. Il comprend un exemple de configuration pratique pour `llama-server`.

deep learning GPU optimization LLM inference VRAM management

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

LLMs learn backwards, and the scaling hypothesis is bounded. [D]

Ce contenu discute la perspective selon laquelle les Large Language Models (LLMs) apprennent à l'envers et que l'hypothèse de mise à l'échelle a des limites inhérentes.

LLMs deep learning scaling hypothesis modelos de linguagem

ARTICLE↑ trendingReddit r/MachineLearning·19/04/2026

On the path towards a true science of deep learning [D]

Un scientifique ayant une double affiliation industrie et académie partage ses réflexions sur le développement d'une théorie scientifique fondamentale de l'apprentissage automatique, basée sur environ sept ans de travail. L'article présente des idées sur la manière d'atteindre une véritable science du deep learning.

research deep learning AI Theory machine learning

RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Elastic Attention Cores for Scalable Vision Transformers [R]

Cet article propose les Cœurs d'Attention Élastiques comme un nouveau bloc de construction pour les Vision Transformers évolutifs, répondant au coût élevé de l'auto-attention dense. L'approche utilise une structure d'attention creuse par blocs de type cœur-périphérie et un dropout imbriqué pour des ajustements élastiques du coût d'inférence, atteignant une précision compétitive.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

RESEARCH↑ trendingReddit r/MachineLearning·il y a 26j

Follow the Mean: Reference-Guided Flow Matching [R]

Ce contenu fait référence à un article de recherche intitulé "Follow the Mean: Reference-Guided Flow Matching". Il explore une nouvelle méthodologie dans les modèles génératifs.

deep learning generative models machine learning Flow Matching

Follow the Mean: Reference-Guided Flow Matching [R]

ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

MILA vs Polytechnique Montreal: reapply or move on? [D]

Un diplômé en génie mécanique avec une expérience en développement logiciel hésite entre deux chemins de maîtrise professionnelle en IA: compléter une mineure en informatique pour postuler à nouveau à MILA ou accepter l'offre de Polytechnique Montréal. Le choix oppose un parcours académique plus long pour renforcer les bases théoriques à un début d'expérience professionnelle plus rapide.

education Career Development deep learning machine learning

RESEARCH↑ trendingReddit r/MachineLearning·il y a 19j

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Cette discussion se demande si les Modèles de Langage Visuel (VLMs) en production utilisent toujours des Vision Transformers (ViTs) à patchs fixes pour leurs capacités visuelles, malgré l'existence de méthodes de tokenisation plus efficaces. Elle explore les raisons possibles de cette situation, telles que des gains marginaux, des limitations de pipeline ou des lois d'échelle mal comprises pour le "patching" adaptatif.

VLMs deep learning Vision Transformers Tokenization

RESEARCH↑ trendingReddit r/MachineLearning·06/05/2026

Transformers with Selective Access to Early Representations [R]

L'article présente SATFormer, une nouvelle variante de Transformer qui améliore l'efficacité en permettant aux "heads" de réaccéder sélectivement aux représentations précoces au lieu de les copier uniformément. Ce mécanisme de "gating" dépendant du contexte optimise la réutilisation de l'information, offrant un meilleur compromis efficacité-performance.

AI architecture deep learning efficiency Transformers

Transformers with Selective Access to Early Representations [R]

RESEARCH↑ trendingReddit r/MachineLearning·17/04/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

Le contenu détaille un problème persistant de faible précision (~50 %) lors de l'utilisation de méthodes d'apprentissage auto-supervisé comme BYOL, MAE et VICReg pour la détection du stress des cultures hyperspectrales. Malgré diverses techniques, les performances restent à peine meilleures que le hasard pour trois classes, soulevant des doutes sur la séparabilité des données ou l'adéquation des méthodes SSL.

model performance Hyperspectral imaging deep learning self-supervised learning

NEWS↑ trendingReddit r/MachineLearning·26/04/2026

Introducing AutoMuon, a one line drop in for AdamW [P]

AutoMuon, un nouveau package Python, permet d'utiliser l'optimiseur Muon en remplacement direct d'AdamW dans les pipelines d'entraînement PyTorch. Il identifie et applique automatiquement l'optimiseur approprié à chaque paramètre du modèle, combinant Muon pour les matrices de poids et AdamW pour d'autres composants.

deep learning optimizer python-package PyTorch

ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

LLM Neuroanatomy III - LLMs seem to think in geometry, not language

Cet article, faisant partie de la série "Neuroanatomie des LLM", suggère que les Grands Modèles Linguistiques traitent les informations géométriquement plutôt que linguistiquement. Il explore les mécanismes internes et l'organisation structurelle de ces modèles d'IA avancés.

AI architecture LLMs deep learning Neuroscience

LLM Neuroanatomy III - LLMs seem to think in geometry, not language

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

Cette recherche introduit la HALO-Loss, une méthode innovante pour entraîner les réseaux neuronaux à s'abstenir de faire des prédictions lorsqu'ils sont incertains. Elle permet aux modèles d'exprimer "Je ne sais pas" plutôt que de fournir des réponses potentiellement incorrectes, améliorant ainsi la fiabilité.

neural networks model robustness deep learning machine learning

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

ARTICLE↑ trendingReddit r/LocalLLaMA·24/04/2026

Takeaways & discussion about the DeepSeek V4 architecture

Cet article discute des nouveautés architecturales de DeepSeek V4, soulignant son système d'attention hybride (CSA + HCA) et les Manifold-Constrained Hyper-Connections. Il aborde également l'entraînement FP4 QAT à l'échelle de la frontière, le différenciant des modèles précédents.

DeepSeek deep learning attention mechanisms quantization

CASE↑ trendingReddit r/MachineLearning·27/04/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Un utilisateur a constaté que la quantification INT8 sur son modèle de deep learning offrait une meilleure précision d'inférence que FP16, ce qui était inattendu. Il recherche des explications pour la performance supérieure de l'INT8 par rapport au FP16.

inference ONNX deep learning quantization

DOC↑ trendingReddit r/MachineLearning·16/04/2026

AI for Materials Science starter kit [D]

Un praticien du Deep Learning recherche des ressources telles que des articles, des cours et des tutoriels pour apprendre l'IA pour la science des matériaux. L'objectif est d'acquérir des connaissances suffisantes pour mener des recherches significatives dans le domaine et contribuer à la communauté, avec un cours de l'Université de Chicago déjà identifié comme référence.

Materials Science deep learning computational chemistry cheminformatics

DOCDEV.to AI·23/04/2026

Redes Neuronales Convolucionales - Clasificacione de imagenes Landmarks

Dans cette vidéo, l'auteur explique le pipeline d'entraînement d'un modèle de réseau neuronal utilisant des Réseaux Neuronaux Convolutifs (CNN) pour la classification d'images de repères. Les personnes intéressées peuvent suivre le pipeline d'entraînement et tester le modèle sur le Github de l'auteur.

neural networks deep learning image classification Convolutional Neural Networks

DOCDEV.to AI·il y a 2j

Pytorch for Neural Networks Part 7: Training with Loss and Derivatives

Cet article, faisant partie d'une série sur PyTorch, détaille le processus d'entraînement des réseaux neuronaux en démontrant une structure de boucle imbriquée pour itérer sur les données d'entraînement. Il explique comment calculer la perte totale, dériver la sortie et appliquer la fonction de perte pour l'optimisation du modèle en utilisant `loss.backward()`.

neural networks deep learning learning Training