ggml

4 items

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 18j

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Ce contenu aborde un défi dans llama.cpp concernant la quantification asymétrique du cache KV q8/q4, qui peut entraîner un traitement CPU sur CUDA. Une discussion GitHub souligne qu'une compilation avec une combinaison spécifique de quantification du cache KV permet des économies de mémoire substantielles avec une perte de précision minime de 1,3%.

llama.cpp GPU optimization quantization KV cache

NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

ggml: backend-agnostic tensor parallelism by JohannesGaessler · Pull Request #19378 · ggml-org/llama.cpp

A solicitação de pull request de JohannesGaessler sobre paralelismo de tensor agnóstico de backend para o projeto ggml-org/llama.cpp foi aprovada por Greganov. Este é um desenvolvimento importante para a eficiência e escalabilidade da inferência de modelos de IA.

llama.cpp tensor parallelism machine learning AI

DOCDEV.to AI·il y a 18j

在老旧 AMD RX 580 (8GB) 上通过原生 Vulkan 运行 Flux Schnell (12B) + LLM — 完整架构指南 [2026]

Ce guide technique démontre comment exécuter des LLM et des modèles Stable Diffusion sur un ancien GPU AMD RX 580 en 2026, en contournant les limitations logicielles de l'IA. Il détaille l'utilisation de Vulkan natif avec le moteur ggml pour une inférence efficace, prouvant la viabilité du matériel plus ancien.

Vulkan hardware ggml AI inference

NEWSHugging Face Blog·20/02/2026

GGML and llama.cpp join HF to ensure the long-term progress of Local AI

GGML e llama.cpp se uniram à Hugging Face para assegurar o progresso contínuo da inteligência artificial local. Esta colaboração visa fortalecer o desenvolvimento de soluções de IA acessíveis e eficientes.

Inferência de IA IA Local Hugging Face open-source AI