← heapsort-ai

CUDA

4 items

ARTICLE↑ trendingReddit r/MachineLearning·4/30/2026

A Hackable ML Compiler Stack in 5,000 Lines of Python [P]

Der Autor hat einen vereinfachten, hackbaren ML-Compiler-Stack in 5.000 Zeilen Python entwickelt, der rohes CUDA ausgibt, um eine leicht verständliche Referenz ohne die Komplexität bestehender Frameworks zu bieten. Er überführt kleine Modelle wie TinyLlama und Qwen2.5-7B durch sechs Zwischenrepräsentationen, wobei Klarheit über Leistung Priorität hat.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/13/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR erreicht 270–1200 Bilder/s OCR durch Optimierung von PaddleOCR mit C++/CUDA, FP16 TensorRT, Fused Kernels und Batch-Verarbeitung, wodurch die Leistungsengpässe von VLM-basierten Ansätzen behoben werden. Diese Lösung verbessert den Durchsatz für die großflächige Dokumentenverarbeitung drastisch und eignet sich für Echtzeit-RAG-Anwendungen.

42