heapsort
ARTICLE↑ trending44

Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]

Reddit r/MachineLearning·15 avril 2026

Un ingénieur senior a passé la dernière année à implémenter cinq architectures LLM à partir de zéro en PyTorch, notamment GPT-2, Llama 3 et DeepSeek. Le projet a abouti à du code open source et à un livre détaillé documentant le processus, expliquant des concepts avancés comme le cache KV, MoE et la quantification FP8.

Lire l'original