model efficiency

9 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/21/2026

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

Dieser Inhalt stellt PrismML und ein neues KI-Konzept namens Ternary Bonsai vor, das behauptet, Top-Intelligenz mit bemerkenswerter Effizienz bei 1.58 Bit zu erreichen. Es behandelt wahrscheinlich Fortschritte in der KI-Modellkomprimierung oder optimierten Leistung.

AI models model efficiency machine learning quantization

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

RESEARCHarXiv CS.LG·4/8/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

NEWSHugging Face Blog·vor 21T

OlmoEarth v1.1: A more efficient family of models

OlmoEarth v1.1 ist eine neue Version einer Modellfamilie, die auf verbesserte Effizienz abzielt. Dieses Update soll die Leistung und Ressourcennutzung optimieren.

updates Geospatial AI AI models model efficiency

RESEARCHarXiv CS.LG·4/28/2026

AutoCompress: Critical Layer Isolation for Efficient Transformer Compression

AutoCompress ist eine Transformer-Kompressionsmethode, die Layer 0 als kritisch isoliert und in voller Dimensionalität schützt. Bei GPT-2 Medium erreicht CLI-GPT2 eine 2,47-fache Kompression und 59,5 % Parameterreduktion bei deutlich besserer Leistung als ein gleichmäßiger Baseline-Ansatz.

AI architecture model efficiency deep learning GPT-2

RESEARCHarXiv CS.LG·4/6/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

multi-task learning model efficiency Deep Learning Architectures Mixture of Experts

RESEARCHarXiv CS.AI·5/1/2026

Step-level Optimization for Efficient Computer-use Agents

Diese Forschung beleuchtet die Ineffizienz aktueller Computer-Nutzungs-Agenten, die große multimodale Modelle für jede GUI-Interaktion überbeanspruchen. Es wird argumentiert, dass Aufgaben heterogen sind, wobei Routineschritte weniger Rechenleistung benötigen und Fehler sich in Hochrisikomomenten wie Stillstand oder semantischer Drift konzentrieren, was eine gezielte Optimierung erfordert.

multimodal models model efficiency GUI automation AI agents

RESEARCHarXiv CS.LG·4/24/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Dieses Papier stellt Gist Sparse Attention (GSA) vor, eine end-to-end lernbare Methode zur Skalierung großer Sprachmodelle auf lange Kontexte ohne Architekturmodifikationen. GSA komprimiert den Kontext in 'Gist-Tokens' zur Zusammenfassung und stellt dann selektiv relevante Rohabschnitte für detaillierte Aufmerksamkeit wieder her, wodurch kompakte globale Repräsentationen mit gezieltem Zugriff auf feinkörnige Details kombiniert werden.

neural networks model efficiency attention mechanisms large language models

RESEARCHarXiv CS.AI·vor 24T

Enhanced and Efficient Reasoning in Large Learning Models

Dieses Papier schlägt eine effiziente und prinzipienbasierte Methode zur Verbesserung des Denkvermögens in großen Sprachmodellen vor, um das derzeit mangelnde Vertrauen in die produzierte Textqualität zu adressieren. Die Methode umfasst eine Vorverarbeitungsphase mit einem Unären Relationalen Integracode, gefolgt von einem optimierten maschinellen Lernprozess.

model efficiency machine learning Reasoning data preprocessing

RESEARCHarXiv CS.LG·5/7/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Diese Forschung stellt MP-ISMoE vor, ein Mixed-Precision Interactive Side Mixture-of-Experts-Framework, um das parameter-effiziente Transferlernen durch die Reduzierung des Speicheraufwands zu verbessern. Es verwendet ein Schema zur Gaußschen Rausch-gestörten iterativen Quantisierung (GNP-IQ) für die Quantisierung von Gewichten mit geringerer Bittiefe, wodurch Speicher freigegeben wird, um die Lernkapazität und Leistung des Seitennetzwerks zu verbessern.

model efficiency learning Transfer Learning quantization