← heapsort-ai

performance

95 items

ARTICLEDEV.to AI·15/4/2026

Stop Scrolling Perfetto Timelines: Query Your Traces with SQL and Let AI Find the Bugs

Este artículo presenta un enfoque innovador para depurar el rendimiento de aplicaciones Android, utilizando consultas SQL contra traces de Perfetto y alimentando la salida a la IA para un análisis automatizado. Este método permite a los desarrolladores identificar y clasificar rápidamente los cuellos de botella de rendimiento, acelerando significativamente el proceso de optimización en comparación con la exploración manual de la línea de tiempo.

27
NEWSDEV.to AI·26/4/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro se lanzó el 24 de abril de 2026, con 1.6T de parámetros y 1M de tokens de contexto, destacando por sus modos Think/Non-Think y licencia MIT. Está optimizado para cargas de trabajo de agentes de IA, ofreciendo una mejor planificación multi-paso y llamadas a funciones más fiables que versiones anteriores, y una relación coste-beneficio superior en comparación con Claude Sonnet 4.6 y GPT-4o.

27
RESEARCHarXiv CS.LG·8/5/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Este artículo presenta el almacenamiento en caché de prefijos dispersos, una optimización para la distribución de LLM que almacena estados recurrentes en puntos de control en lugar de todo el historial de tokens. El método mejora consistentemente la frontera de Pareto en comparación con las heurísticas estándar, especialmente para casos de uso donde las solicitudes comparten un prefijo no trivial.

27
DOCDEV.to AI·hace 23d

Three memory-leak patterns in long-running scrapers (and how I caught them after 968 Trustpilot runs)

Este contenido detalla tres patrones comunes de fugas de memoria observados en raspadores web de larga duración, específicamente después de 968 ejecuciones de Trustpilot. Estas fugas, que aumentan silenciosamente el uso de memoria y el costo, son a menudo causadas por productores que obtienen URLs más rápido de lo que los consumidores pueden procesarlas en colas asincrónicas.

27
ARTICLEDEV.to AI·hace 10d

The Bitter Truth About Scaling AI-Powered Search Engines: My Treasure Hunt Engine Debacle

El autor describe el colapso de su motor de búsqueda impulsado por IA, el Treasure Hunt Engine, al superar los 100.000 usuarios, revelando graves desafíos de escalabilidad y precisión de los resultados. Los intentos de resolver los problemas añadiendo más hardware resultaron ineficaces, lo que exigió una reevaluación de su enfoque de escalado.

27
NEWSDEV.to AI·hace 18d

6.4 Claim Puts Nemotron-Labs Diffusion in AI Fast Lane

Nemotron-Labs Diffusion de NVIDIA busca acelerar las aplicaciones de IA abordando el cuello de botella de un token mediante la generación paralela de múltiples tokens. Este nuevo modelo de lenguaje de difusión afirma lograr hasta 6.4 veces más tokens por pasada directa, beneficiando significativamente a productos de IA sensibles a la latencia como asistentes de codificación y flujos de trabajo de agentes.

27
RESEARCHDEV.to AI·hace 15d

We Benchmarked the Most Popular Code Search Tools. We Beat All of Them.

Un benchmark comparó herramientas populares de búsqueda de código, revelando que "knowing" superó significativamente a competidores como "codegraph" en precisión (P@10) y tiempo de consistencia. A pesar de tener cero estrellas en GitHub, "knowing" demostró ser 1.53x más precisa que "codegraph" y utiliza un enfoque de Random Walk with Restart.

27
RESEARCHDEV.to AI·hace 24d

The cheapest and fastest way to generate an image

El contenido compara 25 modelos de generación de imágenes de 6 proveedores en Vercel AI Gateway, identificando las opciones más baratas y rápidas. Revela diferencias significativas de precio y velocidad, con modelos como bfl/flux-2-klein-4b y bfl/flux-pro-1.1 liderando en costo y velocidad, respectivamente.

27
RESEARCHDEV.to AI·8/5/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Este artículo presenta la "Ronda 2 del Enfrentamiento de Modelos", introduciendo nuevos modelos como Gemma 4 de Google y Kimi K2 de Moonshot AI, y reevaluando modelos anteriores con configuraciones corregidas. Los benchmarks actualizados revelaron cambios significativos en la clasificación, abordando problemas como límites de tokens e interpretación de comandos de la ronda inicial.

27
ARTICLEDEV.to AI·20/4/2026

Background Tasks: The One Actor in the Codebase and the SIGTERM Bug That Only Broke on Linux

La eficiencia de un agente de IA se ve obstaculizada por llamadas a herramientas que bloquean y fuerzan la ejecución secuencial de tareas. La solución propuesta es una capa de ejecución en segundo plano, lo que permite que el bucle del agente continúe sin bloquearse y procese los resultados de comandos lentos a través de una cola de notificaciones.

27
ARTICLEDEV.to AI·hace 29d

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

El artículo desaconseja el uso predeterminado de Q4_K_M para la inferencia local de LLM, enfatizando que el rendimiento óptimo proviene de probar niveles de cuantificación adaptados a flujos de trabajo específicos. Sugiere que la cuantificación agresiva como Q3_K_S puede reducir significativamente la latencia con una pérdida de calidad imperceptible para muchas tareas, aunque la longitud del contexto presenta una compensación.

27
RESEARCHarXiv CS.LG·24/4/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse es un nuevo sistema de inferencia diseñado para plataformas solo de CPU, que permite la ejecución de modelos de lenguaje grandes sin multiplicaciones. Utiliza pesos ternarios ({-1, 0, +1}) para reemplazar las multiplicaciones de punto flotante con adiciones y sustracciones condicionales, reduciendo significativamente los cuellos de botella de ancho de banda de memoria y ofreciendo una compresión de peso de hasta 16x.

27