← heapsort-ai

model efficiency

9 items

RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

28
RESEARCHarXiv CS.LG·06/04/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

27
RESEARCHarXiv CS.AI·01/05/2026

Step-level Optimization for Efficient Computer-use Agents

Cette recherche souligne l'inefficacité des agents informatiques actuels, qui surutilisent de grands modèles multimodaux pour chaque interaction d'interface graphique. Elle soutient que les tâches sont hétérogènes, les étapes routinières nécessitant moins de calcul, tandis que les erreurs se concentrent sur les moments à haut risque comme les blocages ou la dérive sémantique, exigeant une optimisation ciblée.

27
RESEARCHarXiv CS.LG·24/04/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Cet article introduit Gist Sparse Attention (GSA), une méthode entièrement apprenable pour adapter les grands modèles de langage à des contextes longs sans modification architecturale. Le GSA compresse le contexte en 'tokens de substance' pour un résumé, puis restaure sélectivement les fragments bruts pertinents pour une attention détaillée, combinant des représentations globales compactes avec un accès ciblé aux détails.

27
RESEARCHarXiv CS.AI·il y a 25j

Enhanced and Efficient Reasoning in Large Learning Models

Cet article propose une méthode efficiente et basée sur des principes pour améliorer le raisonnement dans les Grands Modèles de Langage, s'attaquant au manque actuel de confiance dans le contenu produit. La méthode comprend une étape de pré-traitement avec un Integracode Relationnel Unaire, suivie d'un processus d'apprentissage automatique rationalisé.

27
RESEARCHarXiv CS.LG·07/05/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Cette recherche présente MP-ISMoE, un cadre de Mixture-of-Experts Latérale Interactive en Précision Mixte, pour améliorer l'apprentissage par transfert économe en paramètres en atténuant la surcharge mémoire. Il utilise un schéma de Quantification Itérative Perturbée par Bruit Gaussien (GNP-IQ) pour la quantification des poids à faible nombre de bits, libérant de la mémoire pour améliorer la capacité d'apprentissage et les performances du réseau latéral.

27