Transformer

10 items

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.

Pruning inference Transformer quantization

ARTICLEDEV.to AI·4/23/2026

Building a Bit-Accurate Fused QKV + RoPE Kernel for Qwen 2.5 in Triton

Dieser Artikel beschreibt die Erstellung eines bitgenauen Triton-Kernels für Qwen 2.5, der QKV-Projektion, RoPE und KV-Cache-Schreiben in einem einzigen Vorgang zusammenführt. Er erzielt eine 4,5- bis 5-fache Beschleunigung gegenüber mehreren PyTorch-Operationen, während die exakte Ausgabegenauigkeit erhalten bleibt.

GPU computing Transformer AI optimization Triton

ARTICLEDEV.to AI·4/10/2026

"Attention Is All You Need" Paper tahun 2017 yang mengubah dunia kecerdasan buatan, dijelaskan tanpa perlu latar belakang teknis.

O artigo explora a importância do paper 'Attention Is All You Need' de 2017, que revolucionou a IA ao introduzir a arquitetura Transformer, base de modelos como ChatGPT. Ele detalha como essa inovação superou as limitações das redes neurais recorrentes, permitindo que computadores compreendam e gerem linguagem humana com maior eficiência.

Attention Is All You Need Transformer ChatGPT NLP

RESEARCHarXiv CS.CL·4/10/2026

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Este artigo apresenta um sistema de Reconhecimento de Emoção da Fala (SER) em árabe, baseado em uma arquitetura híbrida CNN-Transformer. O modelo combina camadas convolucionais para extração de características espectrais e codificadores Transformer para capturar dependências temporais, alcançando 97,8% de precisão e 0,98 de F1-score macro.

CNN deep learning Transformer machine learning

ARTICLEDEV.to AI·4/25/2026

The hidden engine behind the AI Revolution: The Transformer

Der wahre Motor hinter der KI-Revolution ist nicht ChatGPT, sondern die Transformer-Architektur, eingeführt durch das Paper „Attention Is All You Need“. Diese Innovation ermöglichte massive parallele Sprachverarbeitung, nutzte GPUs und veränderte grundlegend, wie Maschinen Sprache verstehen.

AI history deep learning Transformer NLP

ARTICLEDEV.to AI·5/7/2026

The Transformer: The Architecture Behind Modern AI

Die Transformer-Architektur, 2017 von Vaswani eingeführt, markierte einen entscheidenden Wandel in der KI vom sequenziellen zur parallelen Verarbeitung durch ihren Aufmerksamkeitsmechanismus. Diese Innovation ermöglicht es Modellen, Bedeutung und Kontext gleichzeitig zu verarbeiten, ähnlich wie direkt in einer Sprache zu denken.

AI architecture Attention Mechanism Transformer machine learning

DOCDEV.to AI·vor 27T

Transformer Neural Network Architecture Diagram — A Visual Guide for Engineers

Dieser visuelle Leitfaden erklärt die Transformer-Architektur neuronaler Netze, einschließlich des Aufmerksamkeitsmechanismus und der Encoder-Decoder-Struktur. Er zeigt, wie Transformer frühere RNN-Modelle durch die Einführung von Parallelverarbeitung und Selbst-Attention übertrafen und zur Grundlage moderner LLMs wie BERT und GPT wurden.

neural networks deep learning learning Transformer

RESEARCHDEV.to AI·4/26/2026

Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Dieser Inhalt beschreibt das Transformer-Transducer-Modell, eine neuartige Architektur für die End-to-End-Spracherkennung, die den Selbstaufmerksamkeitsmechanismus von Transformatoren nutzt. Es konzentriert sich auf die Verbesserung der Genauigkeit und Effizienz der direkten Transkription gesprochener Sprache in Text.

deep learning Transformer Speech Recognition

RESEARCHDEV.to AI·vor 11T

Sleep Phase Cuts Transformer Costs by Consolidating Memory

Ein neues Papier schlägt eine "Schlafphase" für Sprachmodelle vor, die den Kontext in festgroßen Speicher konsolidiert. Dies reduziert die quadratischen Inferenzkosten und verbessert die Leistung bei Aufgaben mit langem Horizont.

language models inference Transformer memory

RESEARCHYannic Kilcher (YouTube)·11/1/2025

[Paper Analysis] The Free Transformer (and some Variational Autoencoder stuff)

Dieser Inhalt bietet eine detaillierte Analyse eines Artikels über „The Free Transformer“ und verwandte Konzepte bezüglich Variational Autoencodern. Er befasst sich mit fortgeschrittenen technischen Aspekten von KI-Modellarchitekturen.

AI models deep learning Transformer Variational Autoencoder

[Paper Analysis] The Free Transformer (and some Variational Autoencoder stuff)