← heapsort-ai

LLM optimization

17 items

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.

43
ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) es una capa de middleware que reemplaza la caché KV estándar de HuggingFace con un sistema de recuperación por niveles, moviendo datos antiguos a la RAM del sistema. Esto permite ventanas de contexto de 1 millón de tokens en una RTX 4070 (12GB VRAM) con solo 12MB de sobrecarga de VRAM y buen rendimiento.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·6/5/2026

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the results

Esta publicación informa los resultados de la versión 35B A3B de los modelos Qwen3.6-35B-A3B UD XL con MTP injertado, ahora disponibles en HuggingFace. Las pruebas iniciales mostraron ganancias de velocidad limitadas (6% para Q4, 2.5% para Q8) en algunas configuraciones, aunque otros usuarios reportaron mejoras más significativas (hasta el 50%) dependiendo de su hardware.

41
RESEARCHarXiv CS.CL·17/4/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Este trabajo propone un marco unificado guiado por sensado comprimido para la ejecución dinámica de LLM, abordando los altos recuentos de parámetros, el uso de memoria y la latencia de decodificación. Integra la compresión de modelos y de prompts utilizando operadores de medición aleatorios y recuperación dispersa para estimar conjuntos de soporte adaptados a la tarea y al token.

31
RESEARCHarXiv CS.LG·23/4/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Este estudio evalúa la decodificación especulativa con EAGLE3 para optimizar el Agente de Comercio de PayPal, impulsado por modelos Nemotron ajustados. El análisis revela mejoras de rendimiento notables, como un aumento del 22-49% en el rendimiento y una reducción del 18-33% en la latencia sin costos de hardware adicionales.

28
ARTICLEDEV.to AI·16/4/2026

"The Hidden Cost of AI Compute: Why Token Efficiency is Your Competitive Advanta

El artículo destaca el costo financiero significativo y a menudo pasado por alto de la computación de IA, especialmente para modelos como GPT-4, debido al consumo de tokens. Argumenta que la mayoría de las implementaciones son ineficientes, con prompts mal diseñados y sistemas que resultan en un gasto innecesario que puede ser 3-5 veces mayor de lo necesario.

28
RESEARCHDEV.to AI·hace 20d

How Far Can a Small Coding Model Go With a Better Harness?

El artículo explora el rendimiento de un modelo de codificación pequeño (GPT-5.1-Codex-Mini) en Terminal-Bench 2.0, logrando un 61,6% al optimizar su "arnés" en lugar de cambiar a un modelo más grande. Esto subraya que el envoltorio del modelo es fundamental para el rendimiento, particularmente con modelos pequeños donde los errores del arnés son más notorios.

27
RESEARCHDEV.to AI·9/5/2026

Adaptive reasoning reduces token usage up to 90% with minimal accuracy loss

Los formatos de razonamiento adaptativo permiten a los modelos de IA decidir sobre la marcha qué pasos de razonamiento son realmente necesarios, reduciendo el uso de tokens hasta en un 90% con una pérdida mínima de precisión. Este enfoque reemplaza las cadenas de computación monolíticas por alternativas ligeras elegidas dinámicamente, superando los costos de la evaluación del razonamiento paralelo.

27
ARTICLEDEV.to AI·14/4/2026

I Open-Sourced the Most Overkill Claude Code Setup — 15 Agents, 17 Hooks, 60-99% Token Savings

El autor lanzó un sistema de código abierto llamado "claude-god-mode" para optimizar el uso de Claude Code, solucionando problemas de alto consumo de tokens y baja calidad de código. El sistema integra múltiples capas de optimización y 15 agentes especializados, logrando ahorros de tokens del 60-99% y mejorando la calidad del código generado.

27
ARTICLEDEV.to AI·24/4/2026

i burnt $127 in api credits before i fixed these openclaw mistakes

El autor relata haber quemado $127 en créditos de API debido a que un agente de IA (OpenClaw) se ejecutaba en bucle ineficientemente y utilizaba modelos de alto costo para tareas simples. Lo solucionó implementando configuraciones de modelos escalonados, asignando modelos de IA apropiados a tipos de tareas específicos para optimizar el rendimiento y reducir costos.

26
ARTICLEDEV.to AI·10/4/2026

Most of your Claude Code agents don't need Sonnet

O artigo apresenta uma estratégia de roteamento de 3 níveis para otimizar o custo de chamadas de agentes Claude Code, direcionando tarefas para o modelo de IA mais barato e adequado. O autor utiliza modelos caros como Sonnet apenas para tarefas que exigem raciocínio profundo, enquanto tarefas mais simples são atribuídas a modelos mais acessíveis como Haiku e Ollama.

25