CUDA

4 items

ARTICLE↑ trendingReddit r/MachineLearning·30/04/2026

A Hackable ML Compiler Stack in 5,000 Lines of Python [P]

L'auteur a développé une pile de compilateur ML simplifiée et modifiable en 5 000 lignes de Python qui émet du CUDA, visant à offrir une référence facile à suivre sans la complexité des frameworks existants. Elle compile de petits modèles comme TinyLlama et Qwen2.5-7B à travers six représentations intermédiaires, privilégiant la clarté à la performance.

CUDA ML compiler compiler design Python

ARTICLE↑ trendingReddit r/MachineLearning·13/04/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR atteint 270 à 1200 images/s en optimisant PaddleOCR avec C++/CUDA, TensorRT FP16, des kernels fusionnés et un traitement par lots, résolvant les goulots d'étranglement de performance des approches basées sur VLM. Cette solution améliore considérablement le débit pour le traitement de documents à grande échelle et convient aux applications RAG en temps réel.

CUDA Performance optimization TensorRT C++

ARTICLEDEV.to AI·03/05/2026

I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cards

Un développeur a créé un moteur d'inférence CUDA personnalisé pour exécuter avec succès le grand modèle de langage Qwen3.5-27B sur des cartes graphiques de minage bon marché. Cette approche innovante démontre une optimisation matérielle significative, rendant les modèles d'IA puissants plus accessibles sur du matériel grand public abordable.

CUDA Optimization inference hardware

ARTICLEDEV.to AI·09/04/2026

I Made a Single CUDA Kernel Speak: Streaming Qwen3-TTS at 50ms Latency on an RTX 5090

O autor detalha a otimização de um sistema Qwen3-TTS, que reduziu a latência de 35 segundos para 50 milissegundos TTFC e 0.17 RTF em uma RTX 5090. Isso foi conseguido com apenas três linhas de código alteradas em um kernel CUDA, viabilizando a síntese de fala em tempo real para conversas naturais.

CUDA Hardware AI Otimização Baixa Latência