Performance optimization

44 items

RESEARCHarXiv CS.LG·hace 19h

Enabling KV Caching of Shared Prefix for Diffusion Language Models

El artículo presenta "bicache", la primera técnica de caché KV para prefijos compartidos en modelos de lenguaje de difusión (DLMs), abordando desafíos donde los métodos de caché de LLM existentes fallan debido a la atención bidireccional de los DLMs. Este nuevo enfoque busca desbloquear el servicio de DLM de alto rendimiento, aprovechando observaciones sobre la estabilidad de los KVs de prefijos compartidos en capas poco profundas.

Diffusion Models KV Caching Performance optimization High-throughput serving

RESEARCH↑ trendingReddit r/MachineLearning·10/4/2026

[D] 60% MatMul Performance Bug in cuBLAS on RTX 5090 [D]

Um bug de desempenho foi identificado no cuBLAS para operações de multiplicação de matrizes em GPUs NVIDIA RTX, como a 5090, utilizando apenas 40% da capacidade. O autor demonstrou um kernel customizado que supera o cuBLAS em até 70%, sugerindo otimização deficiente para essas GPUs em comparação com modelos Pro e H-series.

Matrix Multiplication RTX GPUs Performance optimization NVIDIA

RESEARCH↑ trendingReddit r/LocalLLaMA·hace 26d

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Un estudio exhaustivo sobre TurboQuant compara sus variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) con FP8 para la cuantificación de caché KV. Se recomienda FP8 como predeterminado, ofreciendo el doble de capacidad con una pérdida de precisión insignificante y un buen rendimiento. Las variantes de TurboQuant muestran ventajas limitadas o una degradación significativa en la precisión y el rendimiento, siendo 4bit-nc una opción para escenarios con restricciones de memoria.

AI models TurboQuant Performance optimization FP8

A First Comprehensive Study of TurboQuant: Accuracy and Performance

NEWS↑ trendingReddit r/LocalLLaMA·22/4/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI ha lanzado en código abierto FlashKDA, un kernel CUTLASS C++ para Kimi Delta Attention, logrando mejoras de rendimiento de hasta 2.22x sobre la línea base de Triton en benchmarks H20. Esta implementación acelera arquitecturas de atención lineal.

Open Source deep learning Performance optimization attention mechanisms

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

RESEARCH↑ trendingReddit r/MachineLearning·4/5/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Esta publicación detalla hallazgos empíricos de la competición Parameter Golf de OpenAI, explicando por qué los Modelos de Espacio de Estado (SSMs) están estructuralmente en desventaja frente a los transformadores en regímenes de entrenamiento con restricciones de parámetros y tiempo. Los problemas clave incluyen una peor compresión de los pesos in_proj de los SSM y reversiones de victorias arquitectónicas con vocabularios más grandes, junto con conocimientos de experimentos con los kernels Triton Mamba-3.

SSMs AI models Performance optimization Neural network training

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

El autor investiga por qué una receta específica de cuantificación Qwen3.6 27B INT8 Autoround supera a otras, observando que el modelo "piensa" menos pero proporciona mejores resultados en los benchmarks. Luego replicó este rendimiento con una nueva cuantificación GGUF, señalando que ambas consistentemente obtienen respuestas más rápido que UD Q8 K XL.

AI models Qwen3.6 Performance optimization quantization

ARTICLE↑ trendingReddit r/MachineLearning·13/4/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR logra entre 270 y 1200 img/s de OCR optimizando PaddleOCR con C++/CUDA, TensorRT FP16, kernels fusionados y procesamiento por lotes, abordando los cuellos de botella de rendimiento de los enfoques basados en VLM. Esta solución mejora drásticamente el rendimiento para el procesamiento de documentos a gran escala y es adecuada para aplicaciones RAG en tiempo real.

CUDA Performance optimization TensorRT C++

RESEARCHarXiv CS.LG·20/4/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Este artículo analiza el cuello de botella de la sobrecarga de despacho que impide que la poda de tokens reduzca eficazmente la latencia en Vision Transformers (ViTs). Se presenta un nuevo kernel de atención Triton que reduce significativamente esta sobrecarga, logrando hasta 2.24x de rendimiento total para ViTs podados.

AI models deep learning Performance optimization attention mechanisms

CASEDEV.to AI·20/4/2026

Real Performance Wins with AI Pair Programming: Before/After Benchmarks

Este contenido demuestra cómo la programación en pareja con IA, utilizando Claude, puede generar mejoras significativas en el rendimiento de las aplicaciones al identificar y corregir cuellos de botella de manera eficiente. Presenta resultados reales de antes y después, mostrando cómo la IA detectó problemas complejos como consultas N+1 que pasaron desapercibidos para los humanos.

AI assistant Software Development Performance optimization Benchmarking

DOCDEV.to AI·22/4/2026

Hands-On Performance: Diagnosing and Fixing Databricks SQL Bottlenecks

Esta guía práctica se centra en la optimización del rendimiento en Databricks SQL, detallando cómo diagnosticar y solucionar cuellos de botella. Enseña métodos como reducir los escaneos de datos, optimizar las uniones y aprovechar el almacenamiento en caché para hacer las consultas más rápidas y económicas, evitando errores comunes que provocan alta latencia y desperdicio de recursos.

Databricks SQL data engineering Performance optimization

DOCAmazon Web Services (YouTube)·hace 4d

How do I troubleshoot latency and optimize Amazon Bedrock Agents performance?

Este contenido trata sobre cómo solucionar problemas de latencia y optimizar el rendimiento de los Amazon Bedrock Agents. Ofrece una guía práctica para mejorar la eficiencia y la capacidad de respuesta de los agentes de IA.

Troubleshooting Performance optimization Amazon Bedrock latency

How do I troubleshoot latency and optimize Amazon Bedrock Agents performance?

RESEARCHarXiv CS.CL·6/4/2026

Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models

Modelos de linguagem de difusão discreta (dLLMs) aceleram a geração de texto, mas a decodificação paralela degrada a qualidade ao desconsiderar a dependência entre tokens. DEMASK propõe um preditor leve que estima influências condicionais para guiar o desmascaramento simultâneo, comprovadamente melhorando a qualidade. A técnica resulta em um ganho de velocidade de 1.7 a 2.2x, mantendo ou superando o desempenho.

Dependency Prediction DEMASK Parallel Decoding machine learning

DOCAWS Machine Learning Blog·hace 6d

Reducing container cold start times using SOCI index on DLAMI and DLC

Este artículo muestra cómo usar el índice SOCI en AMIs y contenedores de Deep Learning disponibles públicamente para reducir los tiempos de inicio en frío. Explora los diferentes modos de SOCI y cómo implementarlo de manera eficiente en sus cargas de trabajo.

Containers SOCI deep learning cloud computing

ARTICLEDEV.to AI·23/4/2026

Your Customer Service Bot Is Slow Because It's Single-Threaded

Este artículo destaca que los bots de servicio al cliente de un solo hilo son lentos debido a llamadas LLM secuenciales, causando una latencia de hasta 12 segundos. Propone un patrón de subagente paralelo con LangGraph y LangSmith para ejecutar tareas de investigación de forma concurrente, reduciendo significativamente los tiempos de respuesta a alrededor de 6,5 segundos.

LangGraph customer service AI Performance optimization AI agents

ARTICLEDEV.to AI·22/4/2026

The Parallelization Trap: Why Running More Agents Simultaneously Often Makes Things Worse

La "trampa de la paralelización" explica cómo el aumento de agentes de IA concurrentes puede reducir paradójicamente el rendimiento general del sistema debido a problemas de coordinación y coherencia. Esto ocurre por la contención de contexto compartido, generando información obsoleta o conflictiva.

AI architecture Performance optimization distributed systems concurrency

ARTICLEDEV.to AI·9/4/2026

Disarming the "Join Bomb": Re-Engineering Collaborative Filtering on Neo4j

O conteúdo aborda a 'Join Bomb', um problema de desempenho em motores de recomendação construídos com Neo4j, causado por travessias bidirecionais não otimizadas em grafos densos. É proposta uma solução comparando uma query Cypher 'ingênua' com uma query otimizada baseada em APOC para eliminar esse gargalo.

Graph Database Performance optimization recommendation-engine Neo4j

ARTICLEDEV.to AI·15/4/2026

How I Build AI Features Into Mobile Apps Without Killing Performance

El contenido analiza los desafíos de integrar características de IA en aplicaciones móviles sin comprometer el rendimiento, como la velocidad y la duración de la batería. Destaca que el rendimiento de la IA en apps móviles es un problema multifactorial que abarca el producto, la arquitectura, la API y la experiencia del usuario.

mobile development user experience Performance optimization AI

RESEARCHarXiv CS.LG·23/4/2026

Super Apriel: One Checkpoint, Many Speeds

Se ha lanzado Super Apriel, una superred de 15 mil millones de parámetros donde cada capa del decodificador ofrece cuatro opciones de mezclador entrenadas, permitiendo múltiples configuraciones de velocidad/calidad desde un único punto de control. Esto posibilita ganancias de rendimiento de decodificación de 2.9x a 10.7x con una retención de calidad del 96% al 77%, y también la decodificación especulativa sin un modelo de borrador separado.

neural network architecture Performance optimization attention mechanisms large language models

DOCDEV.to AI·23/4/2026

Cursor Rules for Django: The Complete Guide to AI-Assisted Django Development

Esta guía aborda trampas comunes de rendimiento y estabilidad en el desarrollo de Django, como consultas ineficientes y operaciones de bloqueo. Destaca cómo los asistentes de IA, específicamente Cursor y Claude Code, pueden ayudar significativamente a construir aplicaciones Django más robustas y eficientes.

Software Development Performance optimization Django AI development tools

ARTICLEDEV.to AI·20/4/2026

How We Integrate AI Into Real Mobile and Web Apps

Este contenido proporciona consejos prácticos y lecciones aprendidas de Zartek sobre la integración de IA en aplicaciones móviles y web reales, enfatizando enfoques centrados en problemas, optimización del rendimiento, confiabilidad, ahorro de costos mediante el almacenamiento en caché y una observabilidad robusta. Destaca errores comunes y características efectivas de la IA.

AI integration web development Reliability Performance optimization