inference speed

2 items

RESEARCHDEV.to AI·10/05/2026

Diffusion models approach AR quality and improve inference speed

Modelos de linguagem de difusão estão agora alcançando ganhos significativos de throughput e diminuindo a lacuna com decodificadores autorregressivos na velocidade de inferência. Novos Modelos de Linguagem de Difusão Introspectivos (I-DLM) abordam problemas anteriores de consistência introspectiva e loops de amostragem ineficientes, melhorando tanto a qualidade quanto a latência.

inference speed Diffusion Models language models machine learning

ARTICLEDEV.to AI·15d atrás

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Este artigo compara a quantização de LLMs em 16, 8 e 4 bits, revelando que a quantização de 4 bits, embora mais rápida, compromete significativamente a qualidade em tarefas de raciocínio e matemática. O compromisso real é entre a tarefa e a precisão necessária, com 8 bits sendo o ideal para tarefas que exigem precisão, minimizando a perda de qualidade com apenas uma pequena redução na velocidade. A escolha da quantização deve basear-se na tarefa e nas considerações de hardware, não apenas no hardware.

inference speed model performance quantization hardware