← heapsort-ai

deep learning

263 items

RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

Struggling with Chebyshev Filter Integration in CNN — Any Advice? [R]

Un utilisateur peine à intégrer des filtres de Chebyshev dans une architecture CNN pour améliorer les performances, constatant que les résultats actuels sont similaires au modèle de base. Il cherche des conseils sur l'intégration, le placement et le réglage des filtres, ainsi que l'expérience d'autres utilisateurs.

43
NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI a mis en open-source FlashKDA, un noyau CUTLASS C++ pour Kimi Delta Attention, offrant des améliorations de performance allant jusqu'à 2.22x par rapport à la ligne de base Triton sur H20. Cette implémentation optimise les architectures d'attention linéaire.

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20
42
RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Elastic Attention Cores for Scalable Vision Transformers [R]

Cet article propose les Cœurs d'Attention Élastiques comme un nouveau bloc de construction pour les Vision Transformers évolutifs, répondant au coût élevé de l'auto-attention dense. L'approche utilise une structure d'attention creuse par blocs de type cœur-périphérie et un dropout imbriqué pour des ajustements élastiques du coût d'inférence, atteignant une précision compétitive.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

MILA vs Polytechnique Montreal: reapply or move on? [D]

Un diplômé en génie mécanique avec une expérience en développement logiciel hésite entre deux chemins de maîtrise professionnelle en IA: compléter une mineure en informatique pour postuler à nouveau à MILA ou accepter l'offre de Polytechnique Montréal. Le choix oppose un parcours académique plus long pour renforcer les bases théoriques à un début d'expérience professionnelle plus rapide.

42
RESEARCH↑ trendingReddit r/MachineLearning·il y a 19j

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Cette discussion se demande si les Modèles de Langage Visuel (VLMs) en production utilisent toujours des Vision Transformers (ViTs) à patchs fixes pour leurs capacités visuelles, malgré l'existence de méthodes de tokenisation plus efficaces. Elle explore les raisons possibles de cette situation, telles que des gains marginaux, des limitations de pipeline ou des lois d'échelle mal comprises pour le "patching" adaptatif.

42
RESEARCH↑ trendingReddit r/MachineLearning·06/05/2026

Transformers with Selective Access to Early Representations [R]

L'article présente SATFormer, une nouvelle variante de Transformer qui améliore l'efficacité en permettant aux "heads" de réaccéder sélectivement aux représentations précoces au lieu de les copier uniformément. Ce mécanisme de "gating" dépendant du contexte optimise la réutilisation de l'information, offrant un meilleur compromis efficacité-performance.

Transformers with Selective Access to Early Representations [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·17/04/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

Le contenu détaille un problème persistant de faible précision (~50 %) lors de l'utilisation de méthodes d'apprentissage auto-supervisé comme BYOL, MAE et VICReg pour la détection du stress des cultures hyperspectrales. Malgré diverses techniques, les performances restent à peine meilleures que le hasard pour trois classes, soulevant des doutes sur la séparabilité des données ou l'adéquation des méthodes SSL.

42
RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

Cette recherche introduit la HALO-Loss, une méthode innovante pour entraîner les réseaux neuronaux à s'abstenir de faire des prédictions lorsqu'ils sont incertains. Elle permet aux modèles d'exprimer "Je ne sais pas" plutôt que de fournir des réponses potentiellement incorrectes, améliorant ainsi la fiabilité.

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]
42
DOC↑ trendingReddit r/MachineLearning·16/04/2026

AI for Materials Science starter kit [D]

Un praticien du Deep Learning recherche des ressources telles que des articles, des cours et des tutoriels pour apprendre l'IA pour la science des matériaux. L'objectif est d'acquérir des connaissances suffisantes pour mener des recherches significatives dans le domaine et contribuer à la communauté, avec un cours de l'Université de Chicago déjà identifié comme référence.

41
DOCDEV.to AI·il y a 2j

Pytorch for Neural Networks Part 7: Training with Loss and Derivatives

Cet article, faisant partie d'une série sur PyTorch, détaille le processus d'entraînement des réseaux neuronaux en démontrant une structure de boucle imbriquée pour itérer sur les données d'entraînement. Il explique comment calculer la perte totale, dériver la sortie et appliquer la fonction de perte pour l'optimisation du modèle en utilisant `loss.backward()`.

39