heapsort
ARTICLE↑ trending44

Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]

Reddit r/MachineLearning·15 de abril de 2026

Un ingeniero senior pasó el último año implementando cinco arquitecturas LLM desde cero en PyTorch, incluyendo GPT-2, Llama 3 y DeepSeek. El proyecto culminó en código de fuente abierta y un libro detallado que documenta el proceso, explicando conceptos avanzados como KV cache, MoE y cuantificación FP8.

Leer original