ggml

4 items

ARTICLE↑ trendingReddit r/LocalLLaMA·18d atrás

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

O conteúdo discute um desafio técnico no llama.cpp relacionado à quantização de cache KV q8/q4 assimétrica, que pode forçar o processamento na CPU em vez da GPU para CUDA. Uma discussão no GitHub sugere que compilar com uma combinação específica de quantização de cache KV, mesmo sem FA_ALL_QUANTS, oferece economia significativa de memória com apenas 1,3% de perda de precisão.

llama.cpp GPU optimization quantization KV cache

NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

ggml: backend-agnostic tensor parallelism by JohannesGaessler · Pull Request #19378 · ggml-org/llama.cpp

A solicitação de pull request de JohannesGaessler sobre paralelismo de tensor agnóstico de backend para o projeto ggml-org/llama.cpp foi aprovada por Greganov. Este é um desenvolvimento importante para a eficiência e escalabilidade da inferência de modelos de IA.

llama.cpp tensor parallelism machine learning AI

DOCDEV.to AI·18d atrás

在老旧 AMD RX 580 (8GB) 上通过原生 Vulkan 运行 Flux Schnell (12B) + LLM — 完整架构指南 [2026]

Este guia técnico demonstra como executar LLMs e modelos de Stable Diffusion numa GPU AMD RX 580 antiga em 2026, contornando as limitações de software AI. Ele detalha o uso do Vulkan nativo com o motor ggml para inferência eficiente, provando a viabilidade de hardware mais antigo.

Vulkan hardware ggml AI inference

NEWSHugging Face Blog·20/02/2026

GGML and llama.cpp join HF to ensure the long-term progress of Local AI

GGML e llama.cpp se uniram à Hugging Face para assegurar o progresso contínuo da inteligência artificial local. Esta colaboração visa fortalecer o desenvolvimento de soluções de IA acessíveis e eficientes.

Inferência de IA IA Local Hugging Face open-source AI