PyTorch

18 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Un nouveau livre et du code open source sont publiés, détaillant comment construire des architectures LLM modernes comme GPT-2, Llama 3 et DeepSeek à partir de zéro avec PyTorch. Il explique les modifications architecturales pour transformer GPT-2 en Llama 3 et implémente les fonctionnalités avancées de DeepSeek.

Open Source deep learning Transformer Models PyTorch

ARTICLE↑ trendingReddit r/MachineLearning·11/04/2026

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

Un dépôt PyTorch mis à jour présente des implémentations éducatives des versions FA1 à FA4 de FlashAttention. L'objectif est de démontrer les différences et l'évolution algorithmique de la méthode, facilitant ainsi la compréhension de ses idées de conception sans aborder les détails matériels.

FlashAttention deep learning Attention Mechanism Algorithms

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]

Un ingénieur senior a passé la dernière année à implémenter cinq architectures LLM à partir de zéro en PyTorch, notamment GPT-2, Llama 3 et DeepSeek. Le projet a abouti à du code open source et à un livre détaillé documentant le processus, expliquant des concepts avancés comme le cache KV, MoE et la quantification FP8.

DeepSeek Llama 3 GPT-2 PyTorch

RESEARCH↑ trendingReddit r/MachineLearning·18/04/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

Il s'agit d'une bibliothèque PyTorch unifiée pour l'apprentissage profond de nuages de points 3D, prenant en charge 56 configurations prêtes à l'emploi et une validation croisée intégrée. LIDARLearn automatise également la génération de PDF LaTeX prêts à être publiés après l'entraînement, ce qui le rend idéal pour les chercheurs en vision par ordinateur 3D et en télédétection.

Open Source deep learning computer vision 3d-point-cloud

We’re proud to open-source LIDARLearn [R] [D] [P]

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Ce dépôt éducatif PyTorch implémente diverses techniques de parallélisme pour l'entraînement distribué (DP, FSDP, TP, PP) à partir de zéro. Il expose explicitement la logique de forward/backward et les collectifs, permettant de comprendre directement les algorithmes et les modèles de communication sans abstractions de haut niveau.

distributed training FSDP deep learning Parallelism

NEWS↑ trendingReddit r/MachineLearning·24/04/2026

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]

Un nouvel optimiseur PyTorch nommé 'Rose' a été lancé, promettant une faible utilisation de VRAM, une convergence rapide et une excellente généralisation, sous licence Apache 2.0. Développé pendant plusieurs années, il vise à être facile à utiliser et plus économe en mémoire qu'AdamW 8 bits.

deep learning machine learning VRAM Optimization optimizer

NEWS↑ trendingReddit r/MachineLearning·26/04/2026

Introducing AutoMuon, a one line drop in for AdamW [P]

AutoMuon, un nouveau package Python, permet d'utiliser l'optimiseur Muon en remplacement direct d'AdamW dans les pipelines d'entraînement PyTorch. Il identifie et applique automatiquement l'optimiseur approprié à chaque paramètre du modèle, combinant Muon pour les matrices de poids et AdamW pour d'autres composants.

deep learning optimizer python-package PyTorch

CASE↑ trendingReddit r/LocalLLaMA·15/04/2026

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

Un nouvel acquéreur de DGX Spark cherche des conseils pour configurer son système pour l'inférence locale de LLM, prévoyant d'utiliser vLLM, PyTorch et des modèles Hugging Face pour un backend d'API privé. Il demande des recommandations de modèles efficaces, des astuces de réglage pour vLLM sur les systèmes à mémoire unifiée et des retours sur le débit réel.

DGX Spark On-prem AI LLM inference PyTorch

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

DOCDEV.to AI·il y a 2j

Pytorch for Neural Networks Part 7: Training with Loss and Derivatives

Cet article, faisant partie d'une série sur PyTorch, détaille le processus d'entraînement des réseaux neuronaux en démontrant une structure de boucle imbriquée pour itérer sur les données d'entraînement. Il explique comment calculer la perte totale, dériver la sortie et appliquer la fonction de perte pour l'optimisation du modèle en utilisant `loss.backward()`.

neural networks deep learning learning Training

NEWSDEV.to AI·10/04/2026

Safetensors Joins PyTorch Foundation: Infrastructure Growing Up

A principal notícia de IA desta semana é a adesão do Safetensors à PyTorch Foundation, um passo crucial para padronizar a infraestrutura. Safetensors, originalmente da Hugging Face, resolve problemas de segurança e eficiência da serialização de modelos PyTorch, substituindo o formato pickle por um método mais seguro e rápido.

Hugging Face security Safetensors AI infrastructure

ARTICLEDEV.to AI·01/05/2026

I Rebuilt Karpathy's NanoChat in JAX. Here's What XLA Gets Right and What It Gets Dead Wrong.

Ce contenu décrit le portage du NanoChat d'Andrej Karpathy de PyTorch vers JAX/Flax NNX, permettant un entraînement rapide sur un seul GPU et la compatibilité TPU. Il détaille les avantages de XLA pour éliminer la surcharge de Python tout en soulignant ses limites concernant les fonctionnalités avancées et le débogage.

deep learning XLA JAX PyTorch

NEWSDEV.to AI·22/04/2026

Meta — Deep Dive

Ce contenu explore les initiatives d'IA de Meta, telles que LLaMA, PyTorch, FAIR, et le nouveau modèle Muse Spark, qui a dopé ses actions. Il aborde également les prédictions de la NFL par Meta AI et son partenariat approfondi sur les puces avec Broadcom.

AI models Llama FAIR Meta

RESEARCHDEV.to AI·03/05/2026

Geoopt: Riemannian Optimization in PyTorch

Geoopt est une bibliothèque PyTorch qui facilite l'optimisation riemannienne, offrant des techniques d'optimisation géométrique avancées pour les modèles d'apprentissage automatique.

Optimization machine learning Riemannian Optimization Geoopt

DOCDEV.to AI·03/05/2026

DeepRobust: A PyTorch Library for Adversarial Attacks and Defenses

DeepRobust est une bibliothèque PyTorch conçue pour la recherche et le développement d'attaques et de défenses adversaires. Elle fournit des outils pour tester la robustesse des modèles d'apprentissage profond contre les manipulations malveillantes.

deep learning security machine learning adversarial AI

DOCDEV.to AI·il y a 9j

Pytorch for Neural Networks Part 2: Initializing Weights and Biases

Cet article, partie d'une série, détaille comment initialiser les poids et les biais dans une classe de réseau neuronal PyTorch. Il démontre l'utilisation de "nn.Parameter" pour définir un poids, permettant à PyTorch de le traiter comme un composant optimisable du réseau.

neural networks deep learning learning Weights and Biases

DOCHugging Face Blog·il y a 12j

Profiling in PyTorch (Part 1): A Beginner's Guide to torch.profiler

Cet article est un guide du débutant sur l'utilisation de `torch.profiler` pour l'analyse des performances dans PyTorch. Il explique comment profiler efficacement les modèles d'apprentissage profond pour identifier les goulots d'étranglement et optimiser l'exécution.

deep learning learning profiling performance

DOCTowards Data Science·03/02/2025

Image Captioning Paper Walkthrough: Show and Tell

Ce contenu traite de l'implémentation de l'un des premiers modèles neuronaux de génération de légendes d'images à l'aide de la bibliothèque PyTorch.

neural networks deep learning learning PyTorch

NEWSHugging Face Blog·08/04/2026

Safetensors is Joining the PyTorch Foundation

O título anuncia que Safetensors está se juntando à Fundação PyTorch, marcando um desenvolvimento importante no ecossistema de IA.

IA Safetensors PyTorch