← heapsort-ai

inference speed

2 items

RESEARCHDEV.to AI·10/05/2026

Diffusion models approach AR quality and improve inference speed

Les modèles de langage à diffusion réalisent désormais des gains de débit significatifs et réduisent l'écart avec les décodeurs autorégressifs en termes de vitesse d'inférence. Les nouveaux modèles de langage à diffusion introspectifs (I-DLM) corrigent les problèmes antérieurs de cohérence introspective et de boucles d'échantillonnage inefficaces, améliorant ainsi la qualité et la latence.

28
ARTICLEDEV.to AI·il y a 15j

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Cet article compare la quantification des LLM en 16, 8 et 4 bits, révélant que le 4 bits, bien que plus rapide, compromet significativement la qualité sur les tâches de raisonnement et de mathématiques. Le véritable compromis se situe entre la tâche et la précision requise, le 8 bits étant optimal pour les tâches exigeant de la précision, offrant une perte de qualité minimale avec seulement une légère réduction de vitesse. Le choix de la quantification doit être basé sur la tâche et les considérations matérielles, et non uniquement sur le matériel.

27