← heapsort-ai

llama.cpp

33 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/10/2026

I no longer need a cloud LLM to do quick web research

O autor compartilha sua configuração para pesquisa e raspagem web rápida usando LLMs locais, especificamente Qwen3.5:27B-Q3_K_M em uma RTX 4090 com llama.cpp. Ele detalha as ferramentas e o processo que o permite realizar extração eficaz de conteúdo web offline, indicando que modelos locais agora atendem aos seus padrões de qualidade.

38
NEWS↑ trendingReddit r/LocalLLaMA·4/10/2026

More Gemma4 fixes in the past 24 hours

Este conteúdo relata correções recentes e novos templates de chat para os modelos Gemma 4 do Google, visando melhorar o orçamento de raciocínio e a chamada de ferramentas. Ele oferece instruções para usuários de llama.cpp sobre como aplicar esses novos templates para garantir o funcionamento correto.

36
NEWSDEV.to AI·4/19/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Die heutigen Nachrichten heben die Zusammenführung des "speculative checkpointing" in llama.cpp zur Beschleunigung der lokalen LLM-Inferenz sowie ein neues multimodales Ollama-Tool für die lokale Audio-/Videoanalyse hervor. Zudem wird ein detaillierter Vergleich zwischen MLX und GGUF zur Optimierung der Gemma 4-Bereitstellung auf Consumer-Hardware vorgestellt.

29
DOCDEV.to AI·vor 16T

로컬 LLM 셋업 가이드 (v16)

Dieser Leitfaden erklärt, wie man große Sprachmodelle (LLMs) lokal einrichtet und ausführt, detailliert Hardware-Voraussetzungen wie eine NVIDIA GPU und ausreichend RAM, und vergleicht Frameworks wie llama.cpp und Ollama. Er enthält Schritt-für-Schritt-Anleitungen zur Installation von llama.cpp und zum Ausführen eines Modells mit GPU-Beschleunigung.

28
RESEARCHDEV.to AI·vor 22T

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Dieser Inhalt beschreibt ein dreimonatiges Experiment zur Optimierung der Dekodierungsleistung des Qwen3.6-27B-Modells auf einer RTX 3090 Ti GPU. Das Projekt verbesserte erfolgreich die Dekodierungsgeschwindigkeit von 43 auf 39-49 Token pro Sekunde unter Verwendung einer neuen spekulativen Dekodierungstechnik (MTP) in llama.cpp.

27