← heapsort-ai

CUDA

4 items

ARTICLE↑ trendingReddit r/MachineLearning·30/04/2026

A Hackable ML Compiler Stack in 5,000 Lines of Python [P]

O autor construiu um compilador de ML simplificado e hackeável em 5.000 linhas de Python que emite CUDA, buscando oferecer uma referência fácil de seguir sem a complexidade dos frameworks existentes. Ele compila modelos pequenos como TinyLlama e Qwen2.5-7B através de seis representações intermediárias, priorizando a clareza sobre o desempenho.

42
ARTICLE↑ trendingReddit r/MachineLearning·13/04/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

O TurboOCR alcança 270–1200 img/s de OCR otimizando o PaddleOCR com C++/CUDA, TensorRT FP16, kernels fundidos e processamento em lote, resolvendo gargalos de desempenho em abordagens baseadas em VLM. Esta solução melhora drasticamente a vazão para processamento de documentos em larga escala e é adequada para aplicações RAG em tempo real.

42