LLM optimization

17 items

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) es una capa de middleware que reemplaza la caché KV estándar de HuggingFace con un sistema de recuperación por niveles, moviendo datos antiguos a la RAM del sistema. Esto permite ventanas de contexto de 1 millón de tokens en una RTX 4070 (12GB VRAM) con solo 12MB de sobrecarga de VRAM y buen rendimiento.

KIV LLM optimization Context window VRAM

ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

Este contenido analiza la relación entre el tamaño del grupo de hilos de la CPU en LM Studio y la velocidad de generación de tokens (tk/s). Se enfoca específicamente en escenarios donde algunas capas del modelo Mixture of Experts (MoE) son descargadas a la CPU para optimizar el rendimiento.

LLM optimization CPU performance MoE LM Studio

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

RESEARCH↑ trendingReddit r/LocalLLaMA·hace 19d

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

El autor logró 110 tok/s con 12GB de VRAM usando ik_llama.cpp en el modelo Qwen3.6 35B A3B, notando un gran aumento de velocidad. Este rendimiento superó al de llama.cpp regular después de la fusión de su PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking

ARTICLE↑ trendingReddit r/LocalLLaMA·6/5/2026

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the results

Esta publicación informa los resultados de la versión 35B A3B de los modelos Qwen3.6-35B-A3B UD XL con MTP injertado, ahora disponibles en HuggingFace. Las pruebas iniciales mostraron ganancias de velocidad limitadas (6% para Q4, 2.5% para Q8) en algunas configuraciones, aunque otros usuarios reportaron mejoras más significativas (hasta el 50%) dependiendo de su hardware.

AI models LLM optimization GGUF performance testing

RESEARCHarXiv CS.CL·17/4/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Este trabajo propone un marco unificado guiado por sensado comprimido para la ejecución dinámica de LLM, abordando los altos recuentos de parámetros, el uso de memoria y la latencia de decodificación. Integra la compresión de modelos y de prompts utilizando operadores de medición aleatorios y recuperación dispersa para estimar conjuntos de soporte adaptados a la tarea y al token.

Model Compression LLM optimization sparse recovery compressed sensing

ARTICLEDEV.to AI·hace 23d

How I Cut My LangGraph Agent's Token Costs by 93% with One Import

El artículo describe cómo reducir los costos de tokens de agentes LangGraph en un 93% al abordar su naturaleza sin estado. El autor encontró que más del 90% del recorrido del grafo era idéntico en ejecuciones, lo que resultaba en el pago de cómputo redundante.

LangGraph LLM optimization token costs Cost Efficiency

ARTICLEDEV.to AI·hace 19d

Stop Routing Your Prompts Through Shady AI Proxies: How to Compress LLM Tokens Locally in Node.js

Este artículo advierte contra el uso de proxies de IA de terceros para la optimización de costos, señalando graves riesgos de seguridad para los datos propietarios y de clientes. Propone una solución local para la compresión de tokens LLM en Node.js, eliminando la necesidad de intermediarios no verificados.

LLM optimization data privacy security Node.js

RESEARCHarXiv CS.LG·23/4/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Este estudio evalúa la decodificación especulativa con EAGLE3 para optimizar el Agente de Comercio de PayPal, impulsado por modelos Nemotron ajustados. El análisis revela mejoras de rendimiento notables, como un aumento del 22-49% en el rendimiento y una reducción del 18-33% en la latencia sin costos de hardware adicionales.

Performance benchmarking LLM optimization Inference acceleration large language models

ARTICLEDEV.to AI·16/4/2026

"The Hidden Cost of AI Compute: Why Token Efficiency is Your Competitive Advanta

El artículo destaca el costo financiero significativo y a menudo pasado por alto de la computación de IA, especialmente para modelos como GPT-4, debido al consumo de tokens. Argumenta que la mayoría de las implementaciones son ineficientes, con prompts mal diseñados y sistemas que resultan en un gasto innecesario que puede ser 3-5 veces mayor de lo necesario.

AI costs prompt-engineering LLM optimization cloud computing

RESEARCHDEV.to AI·hace 20d

How Far Can a Small Coding Model Go With a Better Harness?

El artículo explora el rendimiento de un modelo de codificación pequeño (GPT-5.1-Codex-Mini) en Terminal-Bench 2.0, logrando un 61,6% al optimizar su "arnés" en lugar de cambiar a un modelo más grande. Esto subraya que el envoltorio del modelo es fundamental para el rendimiento, particularmente con modelos pequeños donde los errores del arnés son más notorios.

model performance LLM optimization Benchmarking code generation

RESEARCHDEV.to AI·hace 22d

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Este contenido describe un experimento de tres meses para optimizar el rendimiento de decodificación del modelo Qwen3.6-27B en una GPU RTX 3090 Ti. El proyecto logró mejorar la velocidad de decodificación de 43 a 39-49 tokens por segundo, utilizando una nueva técnica de decodificación especulativa (MTP) en llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

RESEARCHDEV.to AI·9/5/2026

Adaptive reasoning reduces token usage up to 90% with minimal accuracy loss

Los formatos de razonamiento adaptativo permiten a los modelos de IA decidir sobre la marcha qué pasos de razonamiento son realmente necesarios, reduciendo el uso de tokens hasta en un 90% con una pérdida mínima de precisión. Este enfoque reemplaza las cadenas de computación monolíticas por alternativas ligeras elegidas dinámicamente, superando los costos de la evaluación del razonamiento paralelo.

Visual-language systems LLM optimization Token reduction AI Efficiency

ARTICLEDEV.to AI·14/4/2026

I Open-Sourced the Most Overkill Claude Code Setup — 15 Agents, 17 Hooks, 60-99% Token Savings

El autor lanzó un sistema de código abierto llamado "claude-god-mode" para optimizar el uso de Claude Code, solucionando problemas de alto consumo de tokens y baja calidad de código. El sistema integra múltiples capas de optimización y 15 agentes especializados, logrando ahorros de tokens del 60-99% y mejorando la calidad del código generado.

Open Source LLM optimization Claude code generation

ARTICLEDEV.to AI·24/4/2026

i burnt $127 in api credits before i fixed these openclaw mistakes

El autor relata haber quemado $127 en créditos de API debido a que un agente de IA (OpenClaw) se ejecutaba en bucle ineficientemente y utilizaba modelos de alto costo para tareas simples. Lo solucionó implementando configuraciones de modelos escalonados, asignando modelos de IA apropiados a tipos de tareas específicos para optimizar el rendimiento y reducir costos.

LLM optimization Cost Optimization AI development AI agents

ARTICLEDEV.to AI·10/4/2026

Most of your Claude Code agents don't need Sonnet

O artigo apresenta uma estratégia de roteamento de 3 níveis para otimizar o custo de chamadas de agentes Claude Code, direcionando tarefas para o modelo de IA mais barato e adequado. O autor utiliza modelos caros como Sonnet apenas para tarefas que exigem raciocínio profundo, enquanto tarefas mais simples são atribuídas a modelos mais acessíveis como Haiku e Ollama.

cost management model routing LLM optimization Claude

NEWSDEV.to AI·13/4/2026

Prompt Quality Score (PQS) Now Supports x402 Payments on Solana

Prompt Quality Score (PQS), una herramienta de control de calidad para prompts de agentes de IA, ahora acepta pagos x402 en Base mainnet y Solana. PQS evalúa prompts en 8 dimensiones, ofreciendo una puntuación y soluciones para optimizar la calidad del prompt y ahorrar en el uso de tokens de LLM.

LLM optimization Prompt Quality Blockchain Payments Solana