← heapsort-ai

HPC

4 items

ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Anyone have an S3-compatible store that actually saturates H100s without the AWS egress tax? [R]

Um usuário está treinando modelos de IA em Lambda Labs com um dataset de 40TB no AWS S3, enfrentando altas taxas de egress. Ele busca uma alternativa de armazenamento sem taxas de egress e alta velocidade, ou uma camada de cache NVMe, após problemas de latência com Cloudflare R2 levarem à subutilização da GPU.

42
ARTICLEDEV.to AI·02/05/2026

Optimized Rocky Linux for AI/HPC vs. Generic Enterprise Stacks

Le partenariat entre AMD et CIQ propose une base Rocky Linux optimisée pour AMD, avec des pilotes validés et un support ROCm, destinée aux déploiements d'IA et de HPC en entreprise. Cette solution intégrée assure un déploiement plus rapide, des performances accrues et une gestion simplifiée du cycle de vie par rapport aux piles Linux génériques.

27
DOCDEV.to AI·23/04/2026

Designing HPC Cluster Networking: What Speeds You Actually Need

Le contenu souligne le rôle essentiel de la conception du réseau dans les clusters HPC, souvent éclipsé par les CPU et GPU, pour éviter les goulots d'étranglement et améliorer les performances. Il explique pourquoi un réseau robuste est vital pour des tâches telles que la communication MPI et l'entraînement distribué d'IA/ML, décrivant les chemins de communication clés au sein d'un cluster.

22
DOCDEV.to AI·24/04/2026

Running Slurm on AWS/Azure: Architecture & Pitfalls

Ce guide décrit l'architecture et les pièges courants liés à l'exécution de Slurm sur des plateformes cloud comme AWS et Azure. Il explore les raisons de l'HPC dans le cloud, telles que l'évolutivité à la demande et l'accès aux GPU, et décrit une configuration standard des nœuds de contrôle et de calcul.

18