← heapsort-ai

PyTorch

18 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Un nouveau livre et du code open source sont publiés, détaillant comment construire des architectures LLM modernes comme GPT-2, Llama 3 et DeepSeek à partir de zéro avec PyTorch. Il explique les modifications architecturales pour transformer GPT-2 en Llama 3 et implémente les fonctionnalités avancées de DeepSeek.

46
ARTICLE↑ trendingReddit r/MachineLearning·11/04/2026

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

Un dépôt PyTorch mis à jour présente des implémentations éducatives des versions FA1 à FA4 de FlashAttention. L'objectif est de démontrer les différences et l'évolution algorithmique de la méthode, facilitant ainsi la compréhension de ses idées de conception sans aborder les détails matériels.

45
ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]

Un ingénieur senior a passé la dernière année à implémenter cinq architectures LLM à partir de zéro en PyTorch, notamment GPT-2, Llama 3 et DeepSeek. Le projet a abouti à du code open source et à un livre détaillé documentant le processus, expliquant des concepts avancés comme le cache KV, MoE et la quantification FP8.

44
RESEARCH↑ trendingReddit r/MachineLearning·18/04/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

Il s'agit d'une bibliothèque PyTorch unifiée pour l'apprentissage profond de nuages de points 3D, prenant en charge 56 configurations prêtes à l'emploi et une validation croisée intégrée. LIDARLearn automatise également la génération de PDF LaTeX prêts à être publiés après l'entraînement, ce qui le rend idéal pour les chercheurs en vision par ordinateur 3D et en télédétection.

We’re proud to open-source LIDARLearn [R] [D] [P]
44
ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Ce dépôt éducatif PyTorch implémente diverses techniques de parallélisme pour l'entraînement distribué (DP, FSDP, TP, PP) à partir de zéro. Il expose explicitement la logique de forward/backward et les collectifs, permettant de comprendre directement les algorithmes et les modèles de communication sans abstractions de haut niveau.

43
CASE↑ trendingReddit r/LocalLLaMA·15/04/2026

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

Un nouvel acquéreur de DGX Spark cherche des conseils pour configurer son système pour l'inférence locale de LLM, prévoyant d'utiliser vLLM, PyTorch et des modèles Hugging Face pour un backend d'API privé. Il demande des recommandations de modèles efficaces, des astuces de réglage pour vLLM sur les systèmes à mémoire unifiée et des retours sur le débit réel.

DGX Spark just arrived — planning to run vLLM + local models, looking for advice
42
DOCDEV.to AI·il y a 2j

Pytorch for Neural Networks Part 7: Training with Loss and Derivatives

Cet article, faisant partie d'une série sur PyTorch, détaille le processus d'entraînement des réseaux neuronaux en démontrant une structure de boucle imbriquée pour itérer sur les données d'entraînement. Il explique comment calculer la perte totale, dériver la sortie et appliquer la fonction de perte pour l'optimisation du modèle en utilisant `loss.backward()`.

36
NEWSDEV.to AI·22/04/2026

Meta — Deep Dive

Ce contenu explore les initiatives d'IA de Meta, telles que LLaMA, PyTorch, FAIR, et le nouveau modèle Muse Spark, qui a dopé ses actions. Il aborde également les prédictions de la NFL par Meta AI et son partenariat approfondi sur les puces avec Broadcom.

27