ARTICLE↑ trending42

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Reddit r/LocalLLaMA·12 de abril de 2026

Las pruebas de decodificación especulativa utilizando Gemma 4 E2B como borrador para Gemma 4 31B mostraron una notable mejora en el rendimiento. La velocidad promedio aumentó un 29%, llegando al 50% en la generación de código, con configuraciones específicas de hardware y software.

Gemma 4 31B llama.cpp benchmark AI performance Speculative Decoding

Leer original ↗