RESEARCH↑ trending42
Gemma 4 has a systemic attention failure. Here's the proof.
Reddit r/LocalLLaMA·13 avril 2026
L'auteur a développé une méthode de diagnostic pour les LLM, révélant une défaillance systémique de l'attention dans Gemma 4 26B A4B. Elle a identifié 29 tenseurs avec une dérive de distribution significative, dont 21 dans les couches d'attention, indiquant un mécanisme d'attention compromis.
Lire l'original ↗