← heapsort-ai

CUDA

4 items

ARTICLE↑ trendingReddit r/MachineLearning·30/04/2026

A Hackable ML Compiler Stack in 5,000 Lines of Python [P]

L'auteur a développé une pile de compilateur ML simplifiée et modifiable en 5 000 lignes de Python qui émet du CUDA, visant à offrir une référence facile à suivre sans la complexité des frameworks existants. Elle compile de petits modèles comme TinyLlama et Qwen2.5-7B à travers six représentations intermédiaires, privilégiant la clarté à la performance.

42
ARTICLE↑ trendingReddit r/MachineLearning·13/04/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR atteint 270 à 1200 images/s en optimisant PaddleOCR avec C++/CUDA, TensorRT FP16, des kernels fusionnés et un traitement par lots, résolvant les goulots d'étranglement de performance des approches basées sur VLM. Cette solution améliore considérablement le débit pour le traitement de documents à grande échelle et convient aux applications RAG en temps réel.

42