Model Compression

8 items

NEWS↑ trendingReddit r/LocalLLaMA·17/04/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML a annoncé Ternary Bonsai, une nouvelle famille de modèles de langage de 1,58 bits conçus pour concilier des contraintes de mémoire strictes avec des exigences de haute précision. Disponibles en tailles de 8B, 4B et 1,7B, ces modèles atteignent une empreinte mémoire 9 fois inférieure à celle des modèles 16 bits tout en surpassant la plupart de leurs pairs.

Model Compression language models Efficient AI

Ternary Bonsai: Top intelligence at 1.58 bits

ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

How to Distill from 100B+ to <4B Models

Ce contenu aborde le processus de distillation des modèles d'IA, en se concentrant sur la manière de réduire des modèles massifs de plus de 100 milliards de paramètres à des versions significativement plus petites, de moins de 4 milliards. L'objectif est d'améliorer l'efficacité et l'accessibilité des modèles d'IA complexes.

Model Compression LLMs Model Distillation AI Efficiency

RESEARCHarXiv CS.CL·17/04/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Cet article propose un cadre unifié guidé par la détection compressée pour l'exécution dynamique des LLM, visant à réduire le nombre massif de paramètres, l'utilisation de la mémoire et la latence de décodage. Il intègre la compression de modèle et de prompt en utilisant des opérateurs de mesure aléatoires et une récupération parcimonieuse pour estimer des ensembles de support adaptés aux tâches et aux tokens.

Model Compression LLM optimization sparse recovery compressed sensing

RESEARCHarXiv CS.LG·il y a 5j

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant est un nouveau cadre pour le contrôle continu de la largeur de bit dans les Modèles de Langage de Grande Taille, résolvant les limitations de la quantification basée sur des entiers. Il utilise un mécanisme de "levée puis projection" pour un réglage quasi continu de la largeur de bit pour un déploiement optimal.

Model Compression neural networks LLMs deep learning

RESEARCHarXiv CS.CL·il y a 27j

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD propose un cadre de distillation de capacités guidé par le renforcement pour les Grands Modèles de Langage (LLMs), visant à compresser ces modèles tout en préservant les compétences essentielles pour des tâches spécifiques. Il tient compte explicitement de l'interdépendance des capacités pour optimiser l'utilisation du budget de tokens et prévenir la dégradation d'autres compétences utiles.

Model Compression Knowledge Distillation LLMs reinforcement learning

ARTICLEDEV.to AI·18/04/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

L'article compare les méthodes de quantification traditionnelles (INT4/INT8) pour les LLM locaux avec l'approche émergente de quantification ternaire à 1.58 bits, telle que BitNet b1.58. Il souligne la simplicité des modèles ternaires, qui utilisent uniquement -1, 0 ou +1 pour les poids, les contrastant avec les techniques de quantification post-entraînement standard.

Model Compression LLMs AI optimization quantization

RESEARCHarXiv CS.LG·il y a 22j

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Cette étude examine l'impact de la quantification post-entraînement sur la qualité des Grands Modèles de Langage (LLMs), révélant que la compression peut entraîner l'émergence de biais. Une quantification à 3 bits a provoqué l'apparition de nouveaux comportements stéréotypés dans 6 à 21% des éléments précédemment impartiaux sur des modèles comme Qwen2.5-7B, Mistral-7B et Phi-3.5-mini. Ce phénomène suit un schéma clair de réponse-dose.

Model Compression LLMs quantization model quality

NEWSDEV.to AI·il y a 15j

ModelBest Drops BitCPM-CANN: First 1.58-bit LLM on Ascend 910B

ModelBest a lancé BitCPM-CANN, le premier LLM ternaire de 1,58 bit entraîné de bout en bout sur les NPUs Ascend 910B. Ce modèle utilise 6 fois moins de VRAM que le BF16 tout en conservant la plupart de ses capacités, et il est disponible en quatre tailles open-source.

Model Compression open-source AI AI hardware BitNet