llama.cpp

33 items

ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

huge improvement after moving from ollama to llama.cpp

El contenido describe un proyecto de robots de guerra controlados por código generado por el modelo Qwen3. El autor informa una mejora significativa en la ejecución de la IA después de la transición de Ollama a llama.cpp.

Ollama llama.cpp AI robotics

ARTICLE↑ trendingReddit r/LocalLLaMA·10/4/2026

I no longer need a cloud LLM to do quick web research

O autor compartilha sua configuração para pesquisa e raspagem web rápida usando LLMs locais, especificamente Qwen3.5:27B-Q3_K_M em uma RTX 4090 com llama.cpp. Ele detalha as ferramentas e o processo que o permite realizar extração eficaz de conteúdo web offline, indicando que modelos locais agora atendem aos seus padrões de qualidade.

RTX 4090 Qwen3.5 local LLM llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·15/4/2026

What is the current status with Turbo Quant?

Este contenido pregunta por el estado actual de la tecnología "Turbo Quant", mencionando su reciente popularidad hace unas dos semanas y las pull requests en llama.cpp. El usuario busca una actualización sobre su desarrollo y adopción.

Turbo Quant llama.cpp quantization AI development

NEWS↑ trendingReddit r/LocalLLaMA·10/4/2026

More Gemma4 fixes in the past 24 hours

Este conteúdo relata correções recentes e novos templates de chat para os modelos Gemma 4 do Google, visando melhorar o orçamento de raciocínio e a chamada de ferramentas. Ele oferece instruções para usuários de llama.cpp sobre como aplicar esses novos templates para garantir o funcionamento correto.

updates AI models Gemma 4 llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·8/4/2026

It looks like we’ll need to download the new Gemma 4 GGUFs

Este conteúdo anuncia a atualização dos modelos Gemma 4 GGUF da Unsloth, incorporando várias melhorias e correções do projeto llama.cpp. As atualizações abordam aspectos técnicos como cache KV, suporte CUDA, manuseio de vocabulário e parsing específico para Gemma 4.

unsloth Gemma 4 modelos de IA llama.cpp

NEWSDEV.to AI·19/4/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Las noticias de hoy resaltan la fusión del "speculative checkpointing" en llama.cpp para acelerar la inferencia de LLMs locales y una nueva herramienta multimodal de Ollama para análisis local de audio/video. También se incluye una comparación detallada entre MLX y GGUF para optimizar la implementación de Gemma 4 en hardware de consumo.

LLMs Ollama llama.cpp model inference

DOCDEV.to AI·hace 16d

로컬 LLM 셋업 가이드 (v16)

Esta guía detalla cómo configurar y ejecutar Modelos de Lenguaje Grandes (LLMs) localmente, especificando los requisitos de hardware como una GPU NVIDIA y RAM suficiente, y comparando frameworks como llama.cpp y Ollama. Proporciona instrucciones paso a paso para la instalación de llama.cpp y la ejecución de un modelo con aceleración de GPU.

local setup GPU llama.cpp guide

DOCDEV.to AI·hace 22d

Building llama.cpp from source on a Dell Precision T5820 with an RTX 3090 Ti (after seven power cycles)

Este artículo detalla la configuración de un Dell Precision T5820 con una RTX 3090 Ti para inferencia de IA utilizando llama.cpp para ejecutar Qwen3.6-27B. El autor comparte la receta de construcción, la solución de problemas de PCIe y trucos para contexto largo, enfatizando la paciencia como una solución clave.

Homelab GPU Troubleshooting llama.cpp

DOCDEV.to AI·hace 23d

Building and Running Llama.cpp on an Air-Gapped Mac

Esta guía explica cómo construir y ejecutar Llama.cpp en un dispositivo macOS sin conexión a internet, abordando errores de GateKeeper y nuevas dependencias de descarga de la WebUI que impiden la compilación sin conexión. Detalla los problemas encontrados cuando `cmake` intenta descargar activos de Hugging Face o npm sin una conexión de red.

air-gapped llama.cpp build guide offline compilation

DOCDEV.to AI·hace 16d

로컬 LLM 셋업 가이드 (v4)

Esta guía detalla la configuración de LLM locales en sistemas Linux, especialmente Ubuntu 20.04+. Cubre los requisitos de hardware, compara frameworks como llama.cpp, Ollama, vLLM y LocalAI, y proporciona un proceso de instalación paso a paso.

local LLM AI frameworks llama.cpp setup guide

RESEARCHDEV.to AI·hace 22d

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Este contenido describe un experimento de tres meses para optimizar el rendimiento de decodificación del modelo Qwen3.6-27B en una GPU RTX 3090 Ti. El proyecto logró mejorar la velocidad de decodificación de 43 a 39-49 tokens por segundo, utilizando una nueva técnica de decodificación especulativa (MTP) en llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

NEWSDEV.to AI·12/4/2026

llama.cpp Adds Gemma 4 Audio, Speculative Decoding & Ollama Agent Boost Local AI

llama.cpp ahora soporta el procesamiento de audio multimodal para los modelos Gemma 4, aumentando su versatilidad en hardware de consumo. También se han implementado mejoras de rendimiento con decodificación especulativa y un nuevo agente Ollama para la codificación local.

Ollama Gemma 4 llama.cpp decodificação especulativa

NEWSHugging Face Blog·20/2/2026

GGML and llama.cpp join HF to ensure the long-term progress of Local AI

GGML e llama.cpp se uniram à Hugging Face para assegurar o progresso contínuo da inteligência artificial local. Esta colaboração visa fortalecer o desenvolvimento de soluções de IA acessíveis e eficientes.

Inferência de IA IA Local Hugging Face open-source AI