← heapsort-ai

Model Compression

8 items

NEWS↑ trendingReddit r/LocalLLaMA·17/04/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML a annoncé Ternary Bonsai, une nouvelle famille de modèles de langage de 1,58 bits conçus pour concilier des contraintes de mémoire strictes avec des exigences de haute précision. Disponibles en tailles de 8B, 4B et 1,7B, ces modèles atteignent une empreinte mémoire 9 fois inférieure à celle des modèles 16 bits tout en surpassant la plupart de leurs pairs.

Ternary Bonsai: Top intelligence at 1.58 bits
50
ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

How to Distill from 100B+ to <4B Models

Ce contenu aborde le processus de distillation des modèles d'IA, en se concentrant sur la manière de réduire des modèles massifs de plus de 100 milliards de paramètres à des versions significativement plus petites, de moins de 4 milliards. L'objectif est d'améliorer l'efficacité et l'accessibilité des modèles d'IA complexes.

How to Distill from 100B+ to <4B Models
42
RESEARCHarXiv CS.CL·17/04/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Cet article propose un cadre unifié guidé par la détection compressée pour l'exécution dynamique des LLM, visant à réduire le nombre massif de paramètres, l'utilisation de la mémoire et la latence de décodage. Il intègre la compression de modèle et de prompt en utilisant des opérateurs de mesure aléatoires et une récupération parcimonieuse pour estimer des ensembles de support adaptés aux tâches et aux tokens.

31
RESEARCHarXiv CS.CL·il y a 27j

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD propose un cadre de distillation de capacités guidé par le renforcement pour les Grands Modèles de Langage (LLMs), visant à compresser ces modèles tout en préservant les compétences essentielles pour des tâches spécifiques. Il tient compte explicitement de l'interdépendance des capacités pour optimiser l'utilisation du budget de tokens et prévenir la dégradation d'autres compétences utiles.

28
ARTICLEDEV.to AI·18/04/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

L'article compare les méthodes de quantification traditionnelles (INT4/INT8) pour les LLM locaux avec l'approche émergente de quantification ternaire à 1.58 bits, telle que BitNet b1.58. Il souligne la simplicité des modèles ternaires, qui utilisent uniquement -1, 0 ou +1 pour les poids, les contrastant avec les techniques de quantification post-entraînement standard.

27
RESEARCHarXiv CS.LG·il y a 22j

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Cette étude examine l'impact de la quantification post-entraînement sur la qualité des Grands Modèles de Langage (LLMs), révélant que la compression peut entraîner l'émergence de biais. Une quantification à 3 bits a provoqué l'apparition de nouveaux comportements stéréotypés dans 6 à 21% des éléments précédemment impartiaux sur des modèles comme Qwen2.5-7B, Mistral-7B et Phi-3.5-mini. Ce phénomène suit un schéma clair de réponse-dose.

27