← heapsort-ai

model optimization

26 items

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

L'utilisateur optimise un modèle Transformer pour la taille et la vitesse d'inférence, ayant atteint un plateau après FP16 et ONNX, avec un pruning peu efficace. Il demande conseil sur des techniques avancées comme la factorisation de rang faible, la quantification agressive ou la distillation de connaissances pour des améliorations concrètes.

50
ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

L'auteur démontre que l'association du modèle Qwen3.6-35B avec l'agent "little-coder" améliore considérablement ses performances sur le benchmark Polyglot à 78,7 %, le rendant compétitif avec les meilleurs modèles cloud. Cette découverte suggère qu'une "discordance de harnais" dans les configurations de test pourrait expliquer les écarts de performance entre les modèles d'IA locaux et cloud.

46
RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un utilisateur a découvert et corrigé un problème significatif de dérive de tenseur dans les couches `ssm_conv1d` des modèles Qwen3.6-35B GGUF quantifiés, proposant la métrique de Wasserstein comme supérieure à Kullback Leibler pour détecter l'instabilité numérique. La correction, qui cible spécifiquement les couches de transition d'état récurrentes responsables de la mémoire à long contexte, est maintenant disponible dans un modèle partagé.

44
ARTICLE↑ trendingReddit r/LocalLLaMA·16/04/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 est désormais livré avec un nouveau drapeau `preserve_thinking` qui résout le problème d'invalidation du cache KV en maintenant le contexte de raisonnement complet du modèle. Cette fonctionnalité est particulièrement avantageuse pour les scénarios d'agents, améliorant la cohérence des décisions et optimisant la consommation de jetons et l'utilisation du cache KV.

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.
43
RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos a présenté ResBM, une nouvelle architecture de transformateur conçue pour l'entraînement parallèle en pipeline à faible bande passante. Elle permet une compression d'activation de 128x sans perte significative de convergence.

42
RESEARCHarXiv CS.LG·16/04/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Cet article présente une condition nécessaire pour la conception d'algorithmes d'apprentissage intra-groupe en Reinforcement Learning, exigeant que les objectifs maintiennent l'échangeabilité des gradients pour prévenir la dérive. Il propose des transformations minimales pour restaurer cette structure d'annulation, ce qui stabilise l'entraînement et améliore l'efficacité des échantillons.

29
RESEARCHarXiv CS.LG·20/04/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Cette recherche présente la compression séquentielle de KV, une nouvelle architecture à deux couches pour les caches clé-valeur des transformateurs qui dépasse la limite de Shannon par vecteur. Elle exploite la nature séquentielle des tokens de cache KV, utilisant la déduplication de préfixes probabiliste et le codage delta prédictif pour une compression plus efficace.

27
RESEARCHarXiv CS.CL·07/04/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

27
NEWSDEV.to AI·il y a 9j

Bonsai Image 4B: difusión de 1 bit que corre en un iPhone

PrismML a lancé Bonsai Image 4B, une famille de modèles de génération d'images utilisant des poids 1 bit ou ternaires pour exécuter la diffusion de haute qualité sur des appareils locaux comme les iPhones. Cette innovation permet une compression du modèle de 8,3 fois, le réduisant de 7,75 Go à 0,93 Go, tout en conservant jusqu'à 95 % de la qualité d'origine.

27
RESEARCHDEV.to AI·il y a 20j

AI/ML Research Digest — May 16, 2026

Les récentes avancées en recherche IA/ML améliorent considérablement l'efficacité des modèles et la vitesse d'inférence dans diverses applications. Des techniques telles que la distillation de connaissances avec des adaptateurs de faible rang, une distillation en-politique améliorée, l'optimiseur Pion et les méthodes d'élagage-puis-distillation réduisent les coûts de calcul et permettent un déploiement plus large des modèles d'IA avancés.

27
RESEARCHarXiv CS.CL·27/04/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Cet article présente un système RAG (Génération Augmentée par Récupération) très efficace pour les questions-réponses sur des documents ukrainiens, classé 2ème de la UNLP 2026 Shared Task. Il utilise une recherche hybride personnalisée et un modèle de langage ukrainien optimisé et compressé pour un déploiement local de haute qualité sur du matériel à ressources contraintes.

27
RESEARCHarXiv CS.LG·07/05/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Cette recherche présente EdgeRazor, un cadre léger conçu pour déployer les grands modèles de langage sur des appareils à ressources limitées. Il utilise une distillation de quantification consciente à précision mixte pour convertir les modèles à pleine précision en formats à bits inférieurs, surmontant les limitations des méthodes de quantification précédentes.

27
RESEARCHarXiv CS.LG·il y a 27j

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Les Modèles de Langage de Diffusion (dLLMs) rencontrent des limites de scalabilité dans le parallélisme en raison de seuils de confiance excessivement conservateurs qui entravent leur potentiel de traitement hautement parallèle. Cet article présente LEAP, une méthode plug-and-play sans entraînement qui améliore le parallélisme des dLLMs en détectant les jetons à convergence précoce, accélérant ainsi le décodage.

27