← heapsort-ai

GPU optimization

7 items

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 18d

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Este contenido aborda un desafío en llama.cpp sobre la cuantificación asimétrica del caché KV q8/q4, que puede llevar al procesamiento en CPU con CUDA. Una discusión en GitHub sugiere que compilar con una combinación específica de cuantificación de caché KV, incluso sin FA_ALL_QUANTS, ofrece un ahorro sustancial de memoria con solo una pérdida de precisión del 1,3%.

42
RESEARCHDEV.to AI·7/5/2026

Stateless scheduler doubles LLM training speed

El ajuste fino de grandes modelos de lenguaje a menudo enfrenta cuellos de botella debido a la asignación rígida de GPU y el paralelismo de pipeline ineficiente. Un nuevo programador sin estado, RoundPipe, optimiza el entrenamiento al despachar dinámicamente las etapas de computación a través de un pool de GPUs, duplicando efectivamente la velocidad de entrenamiento de LLMs.

28