quantização

2 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/9/2026

16 GB VRAM users, what model do we like best now?

Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.

LLMs VRAM modelos de linguagem hardware

NEWS↑ trendingReddit r/LocalLLaMA·4/12/2026

Unsloth MiniMax M2.7 quants just finished uploading to HF

New quantizations for the Unsloth MiniMax M2.7 model, ranging from Q1 to BF16, have been uploaded to Hugging Face. A detailed list of GGUF quantizations, along with their respective sizes, is now available for download.

unsloth IA modelos quantização