heapsort
ARTICLE↑ trending44

Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]

Reddit r/MachineLearning·15 de abril de 2026

Um engenheiro sênior passou o último ano implementando cinco arquiteturas LLM do zero em PyTorch, incluindo GPT-2, Llama 3 e DeepSeek. O projeto resultou em código-fonte aberto e um livro detalhado que documenta o processo, explicando conceitos avançados como KV cache, MoE e quantização FP8.

Ler original