← heapsort-ai

GPU

46 items

DOCDEV.to AI·il y a 16j

로컬 LLM 셋업 가이드 (v16)

Ce guide explique comment configurer et exécuter des Modèles de Langage de Grande Taille (LLM) localement, en détaillant les prérequis matériels tels qu'un GPU NVIDIA et une RAM suffisante, et en comparant des frameworks comme llama.cpp et Ollama. Il fournit des instructions étape par étape pour l'installation de llama.cpp et l'exécution d'un modèle avec accélération GPU.

28
NEWSDEV.to AI·il y a 24j

Cerebras IPO Challenges GPU Scaling Orthodoxy

Cerebras Systems a déposé une demande d'introduction en bourse (IPO) le 21 avril 2026, pariant que les puces à l'échelle du wafer peuvent perturber le modèle de cluster GPU de Nvidia pour les charges de travail d'IA. L'entreprise vise à remplacer la domination des GPU en évitant la surcharge d'interconnexion des systèmes multi-GPU.

27
DOCDEV.to AI·il y a 16j

로컬 LLM 셋업 가이드 (v14)

Ce guide (v14) détaille la configuration des LLM locaux, couvrant les exigences matérielles (RAM, VRAM), les systèmes d'exploitation pris en charge et la vérification des informations système. Il compare des frameworks comme llama.cpp, Ollama, vLLM et LocalAI, et fournit un tutoriel étape par étape pour installer les dépendances, compiler llama.cpp, télécharger un modèle et exécuter un serveur local.

27
NEWSDEV.to AI·27/04/2026

26 Seconds to Find a Straggler: Fleet v0.10 End-to-End on A100 and GH200

Ingero Fleet v0.10 FOSS a été lancé et validé sur des clusters A100 et GH200, démontrant la capacité de l'outil de surveillance des nœuds GPU à détecter un nœud lent en environ 26-30 secondes. Cette validation de bout en bout confirme l'efficacité de Fleet pour identifier rapidement les goulots d'étranglement de performance dans les environnements de calcul haute performance.

27
DOCDEV.to AI·il y a 18j

Running Flux Schnell (12B) + LLMs on a Legacy AMD RX 580 (8GB) via Native Vulkan — Full Architecture Guide [2026]

Ce guide explique comment exécuter Flux Schnell (12B) et des LLM sur une carte GPU AMD RX 580 (8 Go) via Vulkan natif, contredisant l'idée que cette carte était obsolète pour l'IA en 2026. La solution implique la compilation native de stable-diffusion.cpp avec GGML_VULKAN=ON, permettant une utilisation directe du GPU sans ROCm ni CUDA.

27
DOCAWS Machine Learning Blog·07/05/2026

Secure short-term GPU capacity for ML workloads with EC2 Capacity Blocks for ML and SageMaker training plans

Cet article explique comment sécuriser des capacités GPU à court terme pour les charges de travail ML avec les blocs de capacité EC2 pour ML et les plans de formation SageMaker d'Amazon. Ces solutions résolvent les problèmes de disponibilité des GPU pour les tests de charge, la validation de modèles et les ateliers.

27
DOCTogether AI Blog·08/05/2026

Deploy and inference any model from HuggingFace

Cette session explique comment déployer n'importe quel modèle Hugging Face en utilisant Goose et le Dedicated Container Inference de Together. Elle vise à simplifier la complexité de la configuration, permettant aux modèles de fonctionner rapidement dans un environnement GPU de production.

27
RESEARCHarXiv CS.AI·il y a 20j

Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX

Mahjax est un nouvel environnement Riichi Mahjong entièrement vectorisé implémenté en JAX, conçu pour permettre une parallélisation à grande échelle sur GPU pour la recherche en apprentissage par renforcement. Il facilite l'apprentissage tabula rasa et comprend un outil de visualisation de haute qualité pour le débogage des agents entraînés.

27
ARTICLEDEV.to AI·il y a 28j

Practical Gemma 4 Benchmarking with LM Studio

Cet article traite de l'évaluation comparative pratique de Gemma 4 avec LM Studio, en se concentrant sur l'impact de la VRAM et du déchargement GPU sur l'accessibilité de modèles plus grands sur les systèmes locaux. Il explore les raisons pratiques d'exécuter des modèles d'IA localement, telles que la confidentialité des données, par opposition aux services d'IA hébergés.

26