← heapsort-ai

CUDA

4 items

ARTICLE↑ trendingReddit r/MachineLearning·30/4/2026

A Hackable ML Compiler Stack in 5,000 Lines of Python [P]

El autor ha creado una pila de compilador de ML simplificada y modificable en 5.000 líneas de Python que emite CUDA, con el objetivo de proporcionar una referencia fácil de seguir sin la complejidad de los frameworks existentes. Baja modelos pequeños como TinyLlama y Qwen2.5-7B a través de seis Representaciones Intermedias, priorizando la claridad sobre el rendimiento.

42
ARTICLE↑ trendingReddit r/MachineLearning·13/4/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR logra entre 270 y 1200 img/s de OCR optimizando PaddleOCR con C++/CUDA, TensorRT FP16, kernels fusionados y procesamiento por lotes, abordando los cuellos de botella de rendimiento de los enfoques basados en VLM. Esta solución mejora drásticamente el rendimiento para el procesamiento de documentos a gran escala y es adecuada para aplicaciones RAG en tiempo real.

42