← heapsort-ai

Performance optimization

44 items

RESEARCHarXiv CS.LG·hace 19h

Enabling KV Caching of Shared Prefix for Diffusion Language Models

El artículo presenta "bicache", la primera técnica de caché KV para prefijos compartidos en modelos de lenguaje de difusión (DLMs), abordando desafíos donde los métodos de caché de LLM existentes fallan debido a la atención bidireccional de los DLMs. Este nuevo enfoque busca desbloquear el servicio de DLM de alto rendimiento, aprovechando observaciones sobre la estabilidad de los KVs de prefijos compartidos en capas poco profundas.

54
RESEARCH↑ trendingReddit r/MachineLearning·10/4/2026

[D] 60% MatMul Performance Bug in cuBLAS on RTX 5090 [D]

Um bug de desempenho foi identificado no cuBLAS para operações de multiplicação de matrizes em GPUs NVIDIA RTX, como a 5090, utilizando apenas 40% da capacidade. O autor demonstrou um kernel customizado que supera o cuBLAS em até 70%, sugerindo otimização deficiente para essas GPUs em comparação com modelos Pro e H-series.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·hace 26d

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Un estudio exhaustivo sobre TurboQuant compara sus variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) con FP8 para la cuantificación de caché KV. Se recomienda FP8 como predeterminado, ofreciendo el doble de capacidad con una pérdida de precisión insignificante y un buen rendimiento. Las variantes de TurboQuant muestran ventajas limitadas o una degradación significativa en la precisión y el rendimiento, siendo 4bit-nc una opción para escenarios con restricciones de memoria.

A First Comprehensive Study of TurboQuant: Accuracy and Performance
43
RESEARCH↑ trendingReddit r/MachineLearning·4/5/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Esta publicación detalla hallazgos empíricos de la competición Parameter Golf de OpenAI, explicando por qué los Modelos de Espacio de Estado (SSMs) están estructuralmente en desventaja frente a los transformadores en regímenes de entrenamiento con restricciones de parámetros y tiempo. Los problemas clave incluyen una peor compresión de los pesos in_proj de los SSM y reversiones de victorias arquitectónicas con vocabularios más grandes, junto con conocimientos de experimentos con los kernels Triton Mamba-3.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

El autor investiga por qué una receta específica de cuantificación Qwen3.6 27B INT8 Autoround supera a otras, observando que el modelo "piensa" menos pero proporciona mejores resultados en los benchmarks. Luego replicó este rendimiento con una nueva cuantificación GGUF, señalando que ambas consistentemente obtienen respuestas más rápido que UD Q8 K XL.

42
ARTICLE↑ trendingReddit r/MachineLearning·13/4/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR logra entre 270 y 1200 img/s de OCR optimizando PaddleOCR con C++/CUDA, TensorRT FP16, kernels fusionados y procesamiento por lotes, abordando los cuellos de botella de rendimiento de los enfoques basados en VLM. Esta solución mejora drásticamente el rendimiento para el procesamiento de documentos a gran escala y es adecuada para aplicaciones RAG en tiempo real.

42
CASEDEV.to AI·20/4/2026

Real Performance Wins with AI Pair Programming: Before/After Benchmarks

Este contenido demuestra cómo la programación en pareja con IA, utilizando Claude, puede generar mejoras significativas en el rendimiento de las aplicaciones al identificar y corregir cuellos de botella de manera eficiente. Presenta resultados reales de antes y después, mostrando cómo la IA detectó problemas complejos como consultas N+1 que pasaron desapercibidos para los humanos.

31
DOCDEV.to AI·22/4/2026

Hands-On Performance: Diagnosing and Fixing Databricks SQL Bottlenecks

Esta guía práctica se centra en la optimización del rendimiento en Databricks SQL, detallando cómo diagnosticar y solucionar cuellos de botella. Enseña métodos como reducir los escaneos de datos, optimizar las uniones y aprovechar el almacenamiento en caché para hacer las consultas más rápidas y económicas, evitando errores comunes que provocan alta latencia y desperdicio de recursos.

31
RESEARCHarXiv CS.CL·6/4/2026

Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models

Modelos de linguagem de difusão discreta (dLLMs) aceleram a geração de texto, mas a decodificação paralela degrada a qualidade ao desconsiderar a dependência entre tokens. DEMASK propõe um preditor leve que estima influências condicionais para guiar o desmascaramento simultâneo, comprovadamente melhorando a qualidade. A técnica resulta em um ganho de velocidade de 1.7 a 2.2x, mantendo ou superando o desempenho.

29
ARTICLEDEV.to AI·23/4/2026

Your Customer Service Bot Is Slow Because It's Single-Threaded

Este artículo destaca que los bots de servicio al cliente de un solo hilo son lentos debido a llamadas LLM secuenciales, causando una latencia de hasta 12 segundos. Propone un patrón de subagente paralelo con LangGraph y LangSmith para ejecutar tareas de investigación de forma concurrente, reduciendo significativamente los tiempos de respuesta a alrededor de 6,5 segundos.

28
RESEARCHarXiv CS.LG·23/4/2026

Super Apriel: One Checkpoint, Many Speeds

Se ha lanzado Super Apriel, una superred de 15 mil millones de parámetros donde cada capa del decodificador ofrece cuatro opciones de mezclador entrenadas, permitiendo múltiples configuraciones de velocidad/calidad desde un único punto de control. Esto posibilita ganancias de rendimiento de decodificación de 2.9x a 10.7x con una retención de calidad del 96% al 77%, y también la decodificación especulativa sin un modelo de borrador separado.

28
ARTICLEDEV.to AI·20/4/2026

How We Integrate AI Into Real Mobile and Web Apps

Este contenido proporciona consejos prácticos y lecciones aprendidas de Zartek sobre la integración de IA en aplicaciones móviles y web reales, enfatizando enfoques centrados en problemas, optimización del rendimiento, confiabilidad, ahorro de costos mediante el almacenamiento en caché y una observabilidad robusta. Destaca errores comunes y características efectivas de la IA.

27