model optimization

26 items

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

L'utilisateur optimise un modèle Transformer pour la taille et la vitesse d'inférence, ayant atteint un plateau après FP16 et ONNX, avec un pruning peu efficace. Il demande conseil sur des techniques avancées comme la factorisation de rang faible, la quantification agressive ou la distillation de connaissances pour des améliorations concrètes.

Pruning inference Transformer quantization

NEWS↑ trendingReddit r/MachineLearning·22/04/2026

INT3 compression+fused metal kernels [R]

Un chercheur et fondateur solo a développé la compression de modèles INT3 et un cache KV de 2 bits avec des noyaux Metal personnalisés pour Mac (série M). Qwen 7B est disponible en prévisualisation, et d'autres optimisations et le support GPU sont prévus.

Hardware Acceleration LLMs quantization model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

L'auteur démontre que l'association du modèle Qwen3.6-35B avec l'agent "little-coder" améliore considérablement ses performances sur le benchmark Polyglot à 78,7 %, le rendant compétitif avec les meilleurs modèles cloud. Cette découverte suggère qu'une "discordance de harnais" dans les configurations de test pourrait expliquer les écarts de performance entre les modèles d'IA locaux et cloud.

LLMs coding agents Benchmarking Agent systems

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un utilisateur a découvert et corrigé un problème significatif de dérive de tenseur dans les couches `ssm_conv1d` des modèles Qwen3.6-35B GGUF quantifiés, proposant la métrique de Wasserstein comme supérieure à Kullback Leibler pour détecter l'instabilité numérique. La correction, qui cible spécifiquement les couches de transition d'état récurrentes responsables de la mémoire à long contexte, est maintenant disponible dans un modèle partagé.

LLMs quantization GGUF model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·16/04/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 est désormais livré avec un nouveau drapeau `preserve_thinking` qui résout le problème d'invalidation du cache KV en maintenant le contexte de raisonnement complet du modèle. Cette fonctionnalité est particulièrement avantageuse pour les scénarios d'agents, améliorant la cohérence des décisions et optimisant la consommation de jetons et l'utilisation du cache KV.

large language models model optimization Qwen AI agents

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

DOC↑ trendingReddit r/MachineLearning·22/04/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Un utilisateur demande quels benchmarks de qualité exécuter pour mesurer la dégradation des performances lors de l'application de la quantification en temps réel au grand modèle linguistique DeepSeek V3.2. L'objectif est de comparer la perte de qualité par rapport à la version non quantifiée.

Benchmarking quantization model optimization AI evaluation

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos a présenté ResBM, une nouvelle architecture de transformateur conçue pour l'entraînement parallèle en pipeline à faible bande passante. Elle permet une compression d'activation de 128x sans perte significative de convergence.

distributed training machine learning architecture model optimization Transformers

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

2b or not 2b ? Custom LLM Scheduling Competition [P]

Une compétition Kaggle a été lancée, axée sur l'optimisation du coût des tokens pour les réponses LLM en décidant d'exécuter un petit modèle ou de sauter une question. L'objectif est de minimiser le coût pondéré, en tenant compte des coûts de calcul, d'échec et de pénalité pour avoir sauté une bonne réponse.

Kaggle Benchmarking model optimization resource management

CASE↑ trendingReddit r/MachineLearning·27/04/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Un utilisateur a constaté que la quantification INT8 sur son modèle de deep learning offrait une meilleure précision d'inférence que FP16, ce qui était inattendu. Il recherche des explications pour la performance supérieure de l'INT8 par rapport au FP16.

inference ONNX deep learning quantization

RESEARCHarXiv CS.LG·16/04/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Cet article présente une condition nécessaire pour la conception d'algorithmes d'apprentissage intra-groupe en Reinforcement Learning, exigeant que les objectifs maintiennent l'échangeabilité des gradients pour prévenir la dérive. Il propose des transformations minimales pour restaurer cette structure d'annulation, ce qui stabilise l'entraînement et améliore l'efficacité des échantillons.

reinforcement learning large language models gradient dynamics model optimization

RESEARCHDEV.to AI·20/04/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner présente une méthode de réglage fin harmonisant la longueur pour l'élagage du raisonnement de type O1. Cette technique vise à optimiser les modèles pour leurs capacités de raisonnement.

Pruning Reasoning Fine-tuning model optimization

RESEARCHTogether AI Blog·15/04/2026

Parcae: Doing more with fewer parameters using stable looped models

Parcae est un modèle de langage stable en boucle qui égale la qualité des Transformers deux fois plus grands avec moins de paramètres. Il introduit les premières lois de mise à l'échelle pour le bouclage, montrant que l'augmentation de la récurrence est une voie efficace en termes de calcul pour de meilleures performances.

language models deep learning efficiency model optimization

RESEARCHarXiv CS.LG·20/04/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Cette recherche présente la compression séquentielle de KV, une nouvelle architecture à deux couches pour les caches clé-valeur des transformateurs qui dépasse la limite de Shannon par vecteur. Elle exploite la nature séquentielle des tokens de cache KV, utilisant la déduplication de préfixes probabiliste et le codage delta prédictif pour une compression plus efficace.

Transformer Architecture AI models LLMs data compression

RESEARCHarXiv CS.CL·07/04/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

Sparsity Low-Rank Decomposition LLM compression large language models

NEWSDEV.to AI·il y a 9j

Bonsai Image 4B: difusión de 1 bit que corre en un iPhone

PrismML a lancé Bonsai Image 4B, une famille de modèles de génération d'images utilisant des poids 1 bit ou ternaires pour exécuter la diffusion de haute qualité sur des appareils locaux comme les iPhones. Cette innovation permet une compression du modèle de 8,3 fois, le réduisant de 7,75 Go à 0,93 Go, tout en conservant jusqu'à 95 % de la qualité d'origine.

Diffusion Models Edge AI image generation PrismML

RESEARCHDEV.to AI·il y a 20j

AI/ML Research Digest — May 16, 2026

Les récentes avancées en recherche IA/ML améliorent considérablement l'efficacité des modèles et la vitesse d'inférence dans diverses applications. Des techniques telles que la distillation de connaissances avec des adaptateurs de faible rang, une distillation en-politique améliorée, l'optimiseur Pion et les méthodes d'élagage-puis-distillation réduisent les coûts de calcul et permettent un déploiement plus large des modèles d'IA avancés.

deep learning machine learning AI Efficiency video generation

RESEARCHarXiv CS.CL·27/04/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Cet article présente un système RAG (Génération Augmentée par Récupération) très efficace pour les questions-réponses sur des documents ukrainiens, classé 2ème de la UNLP 2026 Shared Task. Il utilise une recherche hybride personnalisée et un modèle de langage ukrainien optimisé et compressé pour un déploiement local de haute qualité sur du matériel à ressources contraintes.

Ukrainian language RAG natural language processing Local AI

RESEARCHarXiv CS.LG·07/05/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Cette recherche présente EdgeRazor, un cadre léger conçu pour déployer les grands modèles de langage sur des appareils à ressources limitées. Il utilise une distillation de quantification consciente à précision mixte pour convertir les modèles à pleine précision en formats à bits inférieurs, surmontant les limitations des méthodes de quantification précédentes.

LLMs deep learning quantization model optimization

RESEARCHDEV.to AI·25/04/2026

PP-LCNet: A Lightweight CPU Convolutional Neural Network

PP-LCNet présente un réseau neuronal convolutif léger optimisé pour des performances efficaces sur les CPU. Cette architecture vise une haute précision tout en maintenant des exigences computationnelles minimales, idéale pour les environnements à ressources limitées.

deep learning lightweight models computer vision Convolutional Neural Networks

RESEARCHarXiv CS.LG·il y a 27j

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Les Modèles de Langage de Diffusion (dLLMs) rencontrent des limites de scalabilité dans le parallélisme en raison de seuils de confiance excessivement conservateurs qui entravent leur potentiel de traitement hautement parallèle. Cet article présente LEAP, une méthode plug-and-play sans entraînement qui améliore le parallélisme des dLLMs en détectant les jetons à convergence précoce, accélérant ainsi le décodage.

Diffusion Models Parallel Computing AI large language models