inference speed

2 items

RESEARCHDEV.to AI·5/10/2026

Diffusion models approach AR quality and improve inference speed

Diffusionssprachmodelle erzielen nun erhebliche Durchsatzsteigerungen und verringern den Abstand zu autoregressiven Decodern bei der Inferenzgeschwindigkeit. Neue Introspektive Diffusionssprachmodelle (I-DLM) beheben frühere Probleme der introspektiven Konsistenz und ineffizienter Sampling-Schleifen, wodurch sowohl Qualität als auch Latenz verbessert werden.

inference speed Diffusion Models language models machine learning

ARTICLEDEV.to AI·vor 15T

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Dieser Artikel vergleicht die 16-, 8- und 4-Bit-Quantisierung von LLMs und zeigt, dass 4-Bit, obwohl schneller, die Qualität bei Denk- und mathematischen Aufgaben erheblich beeinträchtigt. Der eigentliche Kompromiss liegt zwischen der Aufgabe und der erforderlichen Präzision, wobei 8-Bit optimal für präzise Aufgaben ist und minimalen Qualitätsverlust bei geringfügiger Geschwindigkeitseinbuße bietet. Die Wahl der Quantisierung sollte auf der Aufgabe und Hardware-Überlegungen basieren, nicht nur auf der Hardware.

inference speed model performance quantization hardware