CUDA

4 items

ARTICLE↑ trendingReddit r/MachineLearning·30/04/2026

A Hackable ML Compiler Stack in 5,000 Lines of Python [P]

O autor construiu um compilador de ML simplificado e hackeável em 5.000 linhas de Python que emite CUDA, buscando oferecer uma referência fácil de seguir sem a complexidade dos frameworks existentes. Ele compila modelos pequenos como TinyLlama e Qwen2.5-7B através de seis representações intermediárias, priorizando a clareza sobre o desempenho.

CUDA ML compiler compiler design Python

ARTICLE↑ trendingReddit r/MachineLearning·13/04/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

O TurboOCR alcança 270–1200 img/s de OCR otimizando o PaddleOCR com C++/CUDA, TensorRT FP16, kernels fundidos e processamento em lote, resolvendo gargalos de desempenho em abordagens baseadas em VLM. Esta solução melhora drasticamente a vazão para processamento de documentos em larga escala e é adequada para aplicações RAG em tempo real.

CUDA Performance optimization TensorRT C++

ARTICLEDEV.to AI·03/05/2026

I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cards

Um desenvolvedor criou um motor de inferência CUDA personalizado para executar com sucesso o grande modelo de linguagem Qwen3.5-27B em placas gráficas de mineração baratas. Esta abordagem inovadora demonstra uma otimização significativa de hardware, tornando modelos de IA poderosos mais acessíveis em hardware de consumo de baixo custo.

CUDA Optimization inference hardware

ARTICLEDEV.to AI·09/04/2026

I Made a Single CUDA Kernel Speak: Streaming Qwen3-TTS at 50ms Latency on an RTX 5090

O autor detalha a otimização de um sistema Qwen3-TTS, que reduziu a latência de 35 segundos para 50 milissegundos TTFC e 0.17 RTF em uma RTX 5090. Isso foi conseguido com apenas três linhas de código alteradas em um kernel CUDA, viabilizando a síntese de fala em tempo real para conversas naturais.

CUDA Hardware AI Otimização Baixa Latência