CUDA

4 items

ARTICLE↑ trendingReddit r/MachineLearning·30/4/2026

A Hackable ML Compiler Stack in 5,000 Lines of Python [P]

El autor ha creado una pila de compilador de ML simplificada y modificable en 5.000 líneas de Python que emite CUDA, con el objetivo de proporcionar una referencia fácil de seguir sin la complejidad de los frameworks existentes. Baja modelos pequeños como TinyLlama y Qwen2.5-7B a través de seis Representaciones Intermedias, priorizando la claridad sobre el rendimiento.

CUDA ML compiler compiler design Python

ARTICLE↑ trendingReddit r/MachineLearning·13/4/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR logra entre 270 y 1200 img/s de OCR optimizando PaddleOCR con C++/CUDA, TensorRT FP16, kernels fusionados y procesamiento por lotes, abordando los cuellos de botella de rendimiento de los enfoques basados en VLM. Esta solución mejora drásticamente el rendimiento para el procesamiento de documentos a gran escala y es adecuada para aplicaciones RAG en tiempo real.

CUDA Performance optimization TensorRT C++

ARTICLEDEV.to AI·3/5/2026

I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cards

Un desarrollador creó un motor de inferencia CUDA personalizado para ejecutar con éxito el gran modelo de lenguaje Qwen3.5-27B en tarjetas gráficas de minería de bajo costo. Este enfoque innovador demuestra una optimización de hardware significativa, haciendo que los modelos de IA potentes sean más accesibles en hardware de consumo asequible.

CUDA Optimization inference hardware

ARTICLEDEV.to AI·9/4/2026

I Made a Single CUDA Kernel Speak: Streaming Qwen3-TTS at 50ms Latency on an RTX 5090

O autor detalha a otimização de um sistema Qwen3-TTS, que reduziu a latência de 35 segundos para 50 milissegundos TTFC e 0.17 RTF em uma RTX 5090. Isso foi conseguido com apenas três linhas de código alteradas em um kernel CUDA, viabilizando a síntese de fala em tempo real para conversas naturais.

CUDA Hardware AI Otimização Baixa Latência