ARTICLE↑ trending42
I tracked a major cache reuse issue down to Qwen 3.5’s chat template
Reddit r/LocalLLaMA·April 8, 2026
Um desenvolvedor investigou persistentes falhas de cache em fluxos de trabalho de agentes de IA locais, resultando no reprocessamento desnecessário de grandes blocos de contexto. A causa foi rastreada até um problema com o template de chat do modelo Qwen 3.5, após descartar outras possibilidades como erros no motor de inferência ou bugs na implementação do cache.
Read original ↗