model efficiency

9 items

RESEARCH↑ trendingReddit r/LocalLLaMA·21/04/2026

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

Este conteúdo apresenta PrismML e um novo conceito de IA chamado Ternary Bonsai, que alega atingir inteligência superior com notável eficiência em 1.58 bits. Provavelmente discute avanços na compressão de modelos de IA ou desempenho otimizado.

AI models model efficiency machine learning quantization

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

NEWSHugging Face Blog·21d atrás

OlmoEarth v1.1: A more efficient family of models

OlmoEarth v1.1 é uma nova versão de uma família de modelos, focada em maior eficiência. Esta atualização visa otimizar o desempenho e o uso de recursos.

updates Geospatial AI AI models model efficiency

RESEARCHarXiv CS.LG·28/04/2026

AutoCompress: Critical Layer Isolation for Efficient Transformer Compression

AutoCompress é um método de compressão de transformadores que isola a Camada 0, considerada crucial, mantendo-a em dimensão total. Aplicado ao GPT-2 Medium, ele alcança uma redução de 59,5% nos parâmetros com um desempenho significativamente superior a um baseline uniforme.

AI architecture model efficiency deep learning GPT-2

RESEARCHarXiv CS.LG·06/04/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

multi-task learning model efficiency Deep Learning Architectures Mixture of Experts

RESEARCHarXiv CS.AI·01/05/2026

Step-level Optimization for Efficient Computer-use Agents

Esta pesquisa aponta a ineficiência dos agentes atuais de uso de computador, que utilizam modelos multimodais grandes para cada interação de interface gráfica. Argumenta que as tarefas são heterogêneas, com passos rotineiros exigindo menos processamento, enquanto erros se concentram em momentos de alto risco como travamentos ou desvio semântico, necessitando otimização direcionada.

multimodal models model efficiency GUI automation AI agents

RESEARCHarXiv CS.LG·24/04/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Este artigo apresenta o Gist Sparse Attention (GSA), um método de aprendizado de ponta a ponta para escalar grandes modelos de linguagem para contextos longos sem modificações arquitetônicas. O GSA comprime o contexto em 'tokens de essência' para resumo e, em seguida, restaura seletivamente blocos brutos relevantes para atenção detalhada, combinando representações globais compactas com acesso segmentado e detalhado.

neural networks model efficiency attention mechanisms large language models

RESEARCHarXiv CS.AI·24d atrás

Enhanced and Efficient Reasoning in Large Learning Models

Este artigo propõe um método eficiente e baseado em princípios para aprimorar o raciocínio em Grandes Modelos de Linguagem, abordando a falta atual de confiança no conteúdo gerado. O método inclui uma fase de pré-processamento com um Integracode Relacional Unário, seguida por um processo de aprendizado de máquina otimizado.

model efficiency machine learning Reasoning data preprocessing

RESEARCHarXiv CS.LG·07/05/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Esta pesquisa apresenta o MP-ISMoE, um framework de Mixture-of-Experts Lateral Interativo de Precisão Mista, para aprimorar o aprendizado por transferência eficiente em parâmetros, mitigando o consumo de memória. Ele utiliza um esquema de Quantização Iterativa Perturbada por Ruído Gaussiano (GNP-IQ) para quantização de pesos em bits mais baixos, liberando memória para melhorar a capacidade de aprendizado e o desempenho da rede lateral.

model efficiency learning Transfer Learning quantization