model efficiency

9 items

RESEARCH↑ trendingReddit r/LocalLLaMA·21/04/2026

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

Ce contenu présente PrismML et un nouveau concept d'IA appelé Ternary Bonsai, qui prétend atteindre une intelligence supérieure avec une efficacité remarquable de 1.58 bits. Il aborde probablement les avancées en matière de compression de modèles d'IA ou de performance optimisée.

AI models model efficiency machine learning quantization

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

NEWSHugging Face Blog·il y a 21j

OlmoEarth v1.1: A more efficient family of models

OlmoEarth v1.1 est une nouvelle version d'une famille de modèles, axée sur une efficacité accrue. Cette mise à jour vise à optimiser les performances et l'utilisation des ressources.

updates Geospatial AI AI models model efficiency

RESEARCHarXiv CS.LG·28/04/2026

AutoCompress: Critical Layer Isolation for Efficient Transformer Compression

AutoCompress est une méthode de compression de transformateurs qui isole la Couche 0, jugée critique, en la maintenant à pleine dimensionnalité. Appliquée à GPT-2 Medium, cette méthode réduit les paramètres de 59,5 % avec des performances nettement supérieures à une base de référence uniforme.

AI architecture model efficiency deep learning GPT-2

RESEARCHarXiv CS.LG·06/04/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

multi-task learning model efficiency Deep Learning Architectures Mixture of Experts

RESEARCHarXiv CS.AI·01/05/2026

Step-level Optimization for Efficient Computer-use Agents

Cette recherche souligne l'inefficacité des agents informatiques actuels, qui surutilisent de grands modèles multimodaux pour chaque interaction d'interface graphique. Elle soutient que les tâches sont hétérogènes, les étapes routinières nécessitant moins de calcul, tandis que les erreurs se concentrent sur les moments à haut risque comme les blocages ou la dérive sémantique, exigeant une optimisation ciblée.

multimodal models model efficiency GUI automation AI agents

RESEARCHarXiv CS.LG·24/04/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Cet article introduit Gist Sparse Attention (GSA), une méthode entièrement apprenable pour adapter les grands modèles de langage à des contextes longs sans modification architecturale. Le GSA compresse le contexte en 'tokens de substance' pour un résumé, puis restaure sélectivement les fragments bruts pertinents pour une attention détaillée, combinant des représentations globales compactes avec un accès ciblé aux détails.

neural networks model efficiency attention mechanisms large language models

RESEARCHarXiv CS.AI·il y a 25j

Enhanced and Efficient Reasoning in Large Learning Models

Cet article propose une méthode efficiente et basée sur des principes pour améliorer le raisonnement dans les Grands Modèles de Langage, s'attaquant au manque actuel de confiance dans le contenu produit. La méthode comprend une étape de pré-traitement avec un Integracode Relationnel Unaire, suivie d'un processus d'apprentissage automatique rationalisé.

model efficiency machine learning Reasoning data preprocessing

RESEARCHarXiv CS.LG·07/05/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Cette recherche présente MP-ISMoE, un cadre de Mixture-of-Experts Latérale Interactive en Précision Mixte, pour améliorer l'apprentissage par transfert économe en paramètres en atténuant la surcharge mémoire. Il utilise un schéma de Quantification Itérative Perturbée par Bruit Gaussien (GNP-IQ) pour la quantification des poids à faible nombre de bits, libérant de la mémoire pour améliorer la capacité d'apprentissage et les performances du réseau latéral.

model efficiency learning Transfer Learning quantization