ggml

4 items

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 18T

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Dieser Inhalt behandelt eine Herausforderung in llama.cpp bezüglich der asymmetrischen KV q8/q4 Cache-Quantisierung, die zur CPU-Verarbeitung unter CUDA führen kann. Eine GitHub-Diskussion zeigt, dass das Kompilieren mit einer spezifischen KV-Cache-Quantisierungskombination erhebliche Speichereinsparungen bei nur 1,3 % Präzisionsverlust ermöglicht.

llama.cpp GPU optimization quantization KV cache

NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

ggml: backend-agnostic tensor parallelism by JohannesGaessler · Pull Request #19378 · ggml-org/llama.cpp

A solicitação de pull request de JohannesGaessler sobre paralelismo de tensor agnóstico de backend para o projeto ggml-org/llama.cpp foi aprovada por Greganov. Este é um desenvolvimento importante para a eficiência e escalabilidade da inferência de modelos de IA.

llama.cpp tensor parallelism machine learning AI

DOCDEV.to AI·vor 18T

在老旧 AMD RX 580 (8GB) 上通过原生 Vulkan 运行 Flux Schnell (12B) + LLM — 完整架构指南 [2026]

Dieser technische Leitfaden zeigt, wie LLMs und Stable Diffusion Modelle im Jahr 2026 auf einer alten AMD RX 580 GPU ausgeführt werden können, indem KI-Softwarebeschränkungen umgangen werden. Er beschreibt die Verwendung von nativem Vulkan mit der ggml-Engine für effiziente Inferenz und beweist die Machbarkeit älterer Hardware.

Vulkan hardware ggml AI inference

NEWSHugging Face Blog·2/20/2026

GGML and llama.cpp join HF to ensure the long-term progress of Local AI

GGML e llama.cpp se uniram à Hugging Face para assegurar o progresso contínuo da inteligência artificial local. Esta colaboração visa fortalecer o desenvolvimento de soluções de IA acessíveis e eficientes.

Inferência de IA IA Local Hugging Face open-source AI