llama.cpp

33 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/12/2026

huge improvement after moving from ollama to llama.cpp

Dieses Kriegsroboter-Projekt nutzt das Qwen3-Modell, um Steuerungs-Code für die Roboter zu generieren. Nach dem Wechsel von Ollama zu llama.cpp meldet der Autor eine signifikante Verbesserung der KI-Ausführung.

Ollama llama.cpp AI robotics

ARTICLE↑ trendingReddit r/LocalLLaMA·4/10/2026

I no longer need a cloud LLM to do quick web research

O autor compartilha sua configuração para pesquisa e raspagem web rápida usando LLMs locais, especificamente Qwen3.5:27B-Q3_K_M em uma RTX 4090 com llama.cpp. Ele detalha as ferramentas e o processo que o permite realizar extração eficaz de conteúdo web offline, indicando que modelos locais agora atendem aos seus padrões de qualidade.

RTX 4090 Qwen3.5 local LLM llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·4/15/2026

What is the current status with Turbo Quant?

Dieses Anliegen fragt nach dem aktuellen Stand der "Turbo Quant"-Technologie, nachdem vor rund zwei Wochen Hype darum entstand und Pull Requests in llama.cpp erwähnt wurden. Es wird um ein Update zu ihrer Entwicklung und Akzeptanz gebeten.

Turbo Quant llama.cpp quantization AI development

NEWS↑ trendingReddit r/LocalLLaMA·4/10/2026

More Gemma4 fixes in the past 24 hours

Este conteúdo relata correções recentes e novos templates de chat para os modelos Gemma 4 do Google, visando melhorar o orçamento de raciocínio e a chamada de ferramentas. Ele oferece instruções para usuários de llama.cpp sobre como aplicar esses novos templates para garantir o funcionamento correto.

updates AI models Gemma 4 llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·4/8/2026

It looks like we’ll need to download the new Gemma 4 GGUFs

Este conteúdo anuncia a atualização dos modelos Gemma 4 GGUF da Unsloth, incorporando várias melhorias e correções do projeto llama.cpp. As atualizações abordam aspectos técnicos como cache KV, suporte CUDA, manuseio de vocabulário e parsing específico para Gemma 4.

unsloth Gemma 4 modelos de IA llama.cpp

NEWSDEV.to AI·4/19/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Die heutigen Nachrichten heben die Zusammenführung des "speculative checkpointing" in llama.cpp zur Beschleunigung der lokalen LLM-Inferenz sowie ein neues multimodales Ollama-Tool für die lokale Audio-/Videoanalyse hervor. Zudem wird ein detaillierter Vergleich zwischen MLX und GGUF zur Optimierung der Gemma 4-Bereitstellung auf Consumer-Hardware vorgestellt.

LLMs Ollama llama.cpp model inference

DOCDEV.to AI·vor 16T

로컬 LLM 셋업 가이드 (v16)

Dieser Leitfaden erklärt, wie man große Sprachmodelle (LLMs) lokal einrichtet und ausführt, detailliert Hardware-Voraussetzungen wie eine NVIDIA GPU und ausreichend RAM, und vergleicht Frameworks wie llama.cpp und Ollama. Er enthält Schritt-für-Schritt-Anleitungen zur Installation von llama.cpp und zum Ausführen eines Modells mit GPU-Beschleunigung.

local setup GPU llama.cpp guide

DOCDEV.to AI·vor 22T

Building llama.cpp from source on a Dell Precision T5820 with an RTX 3090 Ti (after seven power cycles)

Dieser Beitrag beschreibt die Einrichtung eines Dell Precision T5820 mit einer RTX 3090 Ti für KI-Inferenz mithilfe von llama.cpp zum Ausführen von Qwen3.6-27B. Der Autor teilt das Bau-Rezept, die Fehlerbehebung bei PCIe und Tricks für lange Kontexte und betont Geduld als entscheidende Lösung.

Homelab GPU Troubleshooting llama.cpp

DOCDEV.to AI·vor 23T

Building and Running Llama.cpp on an Air-Gapped Mac

Dieser Leitfaden erklärt, wie Llama.cpp auf einem luftgesperrten macOS-Gerät erstellt und ausgeführt wird, wobei GateKeeper-Fehler und neue WebUI-Download-Abhängigkeiten, die eine Offline-Kompilierung verhindern, behandelt werden. Er beschreibt Probleme, die auftreten, wenn `cmake` versucht, Assets von Hugging Face oder npm ohne Internetverbindung herunterzuladen.

air-gapped llama.cpp build guide offline compilation

DOCDEV.to AI·vor 16T

로컬 LLM 셋업 가이드 (v4)

Dieser Leitfaden beschreibt die Einrichtung lokaler LLMs auf Linux-Systemen, insbesondere Ubuntu 20.04+. Er behandelt Hardwareanforderungen, vergleicht Frameworks wie llama.cpp, Ollama, vLLM und LocalAI und bietet einen Schritt-für-Schritt-Installationsprozess.

local LLM AI frameworks llama.cpp setup guide

RESEARCHDEV.to AI·vor 22T

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Dieser Inhalt beschreibt ein dreimonatiges Experiment zur Optimierung der Dekodierungsleistung des Qwen3.6-27B-Modells auf einer RTX 3090 Ti GPU. Das Projekt verbesserte erfolgreich die Dekodierungsgeschwindigkeit von 43 auf 39-49 Token pro Sekunde unter Verwendung einer neuen spekulativen Dekodierungstechnik (MTP) in llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

NEWSDEV.to AI·4/12/2026

llama.cpp Adds Gemma 4 Audio, Speculative Decoding & Ollama Agent Boost Local AI

llama.cpp unterstützt nun multimodale Audioverarbeitung für Gemma 4 Modelle, was seine Vielseitigkeit auf Consumer-Hardware erweitert. Leistungssteigerungen wurden zudem durch spekulatives Decoding und einen neuen Ollama-Agenten für lokales Codieren implementiert.

Ollama Gemma 4 llama.cpp decodificação especulativa

NEWSHugging Face Blog·2/20/2026

GGML and llama.cpp join HF to ensure the long-term progress of Local AI

GGML e llama.cpp se uniram à Hugging Face para assegurar o progresso contínuo da inteligência artificial local. Esta colaboração visa fortalecer o desenvolvimento de soluções de IA acessíveis e eficientes.

Inferência de IA IA Local Hugging Face open-source AI