ARTICLE27

99.8% of LLM Inference Power Isn't Spent on Computation

DEV.to AI·8 de abril de 2026

O artigo argumenta que o consumo de energia é o maior gargalo na inferência de LLMs, mais do que largura de banda ou VRAM, devido a limitações físicas. Isso se deve ao colapso da Lei de Dennard por volta de 2006, que impediu a redução automática do consumo de energia com o encolhimento dos transistores.

power consumption Bandwidth AI hardware VRAM Hardware Bottlenecks LLM inference Dennard Scaling

Ler original ↗