CUDA

4 items

ARTICLE↑ trendingReddit r/MachineLearning·4/30/2026

A Hackable ML Compiler Stack in 5,000 Lines of Python [P]

Der Autor hat einen vereinfachten, hackbaren ML-Compiler-Stack in 5.000 Zeilen Python entwickelt, der rohes CUDA ausgibt, um eine leicht verständliche Referenz ohne die Komplexität bestehender Frameworks zu bieten. Er überführt kleine Modelle wie TinyLlama und Qwen2.5-7B durch sechs Zwischenrepräsentationen, wobei Klarheit über Leistung Priorität hat.

CUDA ML compiler compiler design Python

ARTICLE↑ trendingReddit r/MachineLearning·4/13/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR erreicht 270–1200 Bilder/s OCR durch Optimierung von PaddleOCR mit C++/CUDA, FP16 TensorRT, Fused Kernels und Batch-Verarbeitung, wodurch die Leistungsengpässe von VLM-basierten Ansätzen behoben werden. Diese Lösung verbessert den Durchsatz für die großflächige Dokumentenverarbeitung drastisch und eignet sich für Echtzeit-RAG-Anwendungen.

CUDA Performance optimization TensorRT C++

ARTICLEDEV.to AI·5/3/2026

I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cards

Ein Entwickler hat eine benutzerdefinierte CUDA-Inferenz-Engine erstellt, um das große Sprachmodell Qwen3.5-27B erfolgreich auf kostengünstigen Mining-Grafikkarten zu betreiben. Dieser innovative Ansatz zeigt eine erhebliche Hardware-Optimierung, wodurch leistungsstarke KI-Modelle auf erschwinglicher Consumer-Hardware zugänglicher werden.

CUDA Optimization inference hardware

ARTICLEDEV.to AI·4/9/2026

I Made a Single CUDA Kernel Speak: Streaming Qwen3-TTS at 50ms Latency on an RTX 5090

O autor detalha a otimização de um sistema Qwen3-TTS, que reduziu a latência de 35 segundos para 50 milissegundos TTFC e 0.17 RTF em uma RTX 5090. Isso foi conseguido com apenas três linhas de código alteradas em um kernel CUDA, viabilizando a síntese de fala em tempo real para conversas naturais.

CUDA Hardware AI Otimização Baixa Latência