← heapsort-ai

llama.cpp

33 items

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

I no longer need a cloud LLM to do quick web research

O autor compartilha sua configuração para pesquisa e raspagem web rápida usando LLMs locais, especificamente Qwen3.5:27B-Q3_K_M em uma RTX 4090 com llama.cpp. Ele detalha as ferramentas e o processo que o permite realizar extração eficaz de conteúdo web offline, indicando que modelos locais agora atendem aos seus padrões de qualidade.

38
NEWS↑ trendingReddit r/LocalLLaMA·10/04/2026

More Gemma4 fixes in the past 24 hours

Este conteúdo relata correções recentes e novos templates de chat para os modelos Gemma 4 do Google, visando melhorar o orçamento de raciocínio e a chamada de ferramentas. Ele oferece instruções para usuários de llama.cpp sobre como aplicar esses novos templates para garantir o funcionamento correto.

36
NEWSDEV.to AI·19/04/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Les nouvelles d'aujourd'hui mettent en lumière l'intégration du "speculative checkpointing" dans llama.cpp pour accélérer l'inférence des LLM locaux et un nouvel outil multimodal Ollama pour l'analyse audio/vidéo locale. Une comparaison détaillée entre MLX et GGUF pour l'optimisation du déploiement de Gemma 4 sur du matériel grand public est également présentée.

29
DOCDEV.to AI·il y a 16j

로컬 LLM 셋업 가이드 (v16)

Ce guide explique comment configurer et exécuter des Modèles de Langage de Grande Taille (LLM) localement, en détaillant les prérequis matériels tels qu'un GPU NVIDIA et une RAM suffisante, et en comparant des frameworks comme llama.cpp et Ollama. Il fournit des instructions étape par étape pour l'installation de llama.cpp et l'exécution d'un modèle avec accélération GPU.

28
DOCDEV.to AI·il y a 23j

Building and Running Llama.cpp on an Air-Gapped Mac

Ce guide explique comment compiler et exécuter Llama.cpp sur un appareil macOS sans connexion internet, en abordant les erreurs de GateKeeper et les nouvelles dépendances de téléchargement de l'interface utilisateur web qui empêchent la compilation hors ligne. Il détaille les problèmes rencontrés lorsque `cmake` tente de télécharger des actifs depuis Hugging Face ou npm sans connexion réseau.

27
RESEARCHDEV.to AI·il y a 22j

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Ce contenu détaille une expérience de trois mois visant à optimiser les performances de décodage du modèle Qwen3.6-27B sur une carte GPU RTX 3090 Ti. Le projet a réussi à améliorer la vitesse de décodage de 43 à 39-49 jetons par seconde, en utilisant une nouvelle technique de décodage spéculatif (MTP) au sein de llama.cpp.

27