llama.cpp

33 items

ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

huge improvement after moving from ollama to llama.cpp

Le contenu décrit un projet de robots de guerre contrôlés par du code généré par le modèle Qwen3. L'auteur signale une amélioration significative de l'exécution de l'IA après la transition d'Ollama à llama.cpp.

Ollama llama.cpp AI robotics

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

I no longer need a cloud LLM to do quick web research

O autor compartilha sua configuração para pesquisa e raspagem web rápida usando LLMs locais, especificamente Qwen3.5:27B-Q3_K_M em uma RTX 4090 com llama.cpp. Ele detalha as ferramentas e o processo que o permite realizar extração eficaz de conteúdo web offline, indicando que modelos locais agora atendem aos seus padrões de qualidade.

RTX 4090 Qwen3.5 local LLM llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·15/04/2026

What is the current status with Turbo Quant?

Ce contenu s'interroge sur le statut actuel de la technologie « Turbo Quant », faisant référence à son battage médiatique d'il y a environ deux semaines et aux requêtes de tirage (pull requests) dans llama.cpp. L'utilisateur cherche une mise à jour sur son développement et son adoption.

Turbo Quant llama.cpp quantization AI development

NEWS↑ trendingReddit r/LocalLLaMA·10/04/2026

More Gemma4 fixes in the past 24 hours

Este conteúdo relata correções recentes e novos templates de chat para os modelos Gemma 4 do Google, visando melhorar o orçamento de raciocínio e a chamada de ferramentas. Ele oferece instruções para usuários de llama.cpp sobre como aplicar esses novos templates para garantir o funcionamento correto.

updates AI models Gemma 4 llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·08/04/2026

It looks like we’ll need to download the new Gemma 4 GGUFs

Este conteúdo anuncia a atualização dos modelos Gemma 4 GGUF da Unsloth, incorporando várias melhorias e correções do projeto llama.cpp. As atualizações abordam aspectos técnicos como cache KV, suporte CUDA, manuseio de vocabulário e parsing específico para Gemma 4.

unsloth Gemma 4 modelos de IA llama.cpp

NEWSDEV.to AI·19/04/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Les nouvelles d'aujourd'hui mettent en lumière l'intégration du "speculative checkpointing" dans llama.cpp pour accélérer l'inférence des LLM locaux et un nouvel outil multimodal Ollama pour l'analyse audio/vidéo locale. Une comparaison détaillée entre MLX et GGUF pour l'optimisation du déploiement de Gemma 4 sur du matériel grand public est également présentée.

LLMs Ollama llama.cpp model inference

DOCDEV.to AI·il y a 16j

로컬 LLM 셋업 가이드 (v16)

Ce guide explique comment configurer et exécuter des Modèles de Langage de Grande Taille (LLM) localement, en détaillant les prérequis matériels tels qu'un GPU NVIDIA et une RAM suffisante, et en comparant des frameworks comme llama.cpp et Ollama. Il fournit des instructions étape par étape pour l'installation de llama.cpp et l'exécution d'un modèle avec accélération GPU.

local setup GPU llama.cpp guide

DOCDEV.to AI·il y a 22j

Building llama.cpp from source on a Dell Precision T5820 with an RTX 3090 Ti (after seven power cycles)

Cet article décrit la configuration d'un Dell Precision T5820 avec une RTX 3090 Ti pour l'inférence d'IA en utilisant llama.cpp pour exécuter Qwen3.6-27B. L'auteur partage la recette de construction, le dépannage PCIe et les astuces pour le contexte long, soulignant la patience comme une solution cruciale.

Homelab GPU Troubleshooting llama.cpp

DOCDEV.to AI·il y a 23j

Building and Running Llama.cpp on an Air-Gapped Mac

Ce guide explique comment compiler et exécuter Llama.cpp sur un appareil macOS sans connexion internet, en abordant les erreurs de GateKeeper et les nouvelles dépendances de téléchargement de l'interface utilisateur web qui empêchent la compilation hors ligne. Il détaille les problèmes rencontrés lorsque `cmake` tente de télécharger des actifs depuis Hugging Face ou npm sans connexion réseau.

air-gapped llama.cpp build guide offline compilation

DOCDEV.to AI·il y a 16j

로컬 LLM 셋업 가이드 (v4)

Ce guide détaille la configuration des LLM locaux sur les systèmes Linux, en particulier Ubuntu 20.04+. Il couvre les exigences matérielles, compare des frameworks comme llama.cpp, Ollama, vLLM et LocalAI, et fournit un processus d'installation étape par étape.

local LLM AI frameworks llama.cpp setup guide

RESEARCHDEV.to AI·il y a 22j

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Ce contenu détaille une expérience de trois mois visant à optimiser les performances de décodage du modèle Qwen3.6-27B sur une carte GPU RTX 3090 Ti. Le projet a réussi à améliorer la vitesse de décodage de 43 à 39-49 jetons par seconde, en utilisant une nouvelle technique de décodage spéculatif (MTP) au sein de llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

NEWSDEV.to AI·12/04/2026

llama.cpp Adds Gemma 4 Audio, Speculative Decoding & Ollama Agent Boost Local AI

llama.cpp prend désormais en charge le traitement audio multimodal pour les modèles Gemma 4, augmentant ainsi sa polyvalence sur le matériel grand public. Des gains de performance ont également été mis en œuvre avec la décodification spéculative et un nouvel agent Ollama pour le codage local.

Ollama Gemma 4 llama.cpp decodificação especulativa

NEWSHugging Face Blog·20/02/2026

GGML and llama.cpp join HF to ensure the long-term progress of Local AI

GGML e llama.cpp se uniram à Hugging Face para assegurar o progresso contínuo da inteligência artificial local. Esta colaboração visa fortalecer o desenvolvimento de soluções de IA acessíveis e eficientes.

Inferência de IA IA Local Hugging Face open-source AI