model efficiency

9 items

RESEARCH↑ trendingReddit r/LocalLLaMA·21/4/2026

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

Este contenido presenta PrismML y un nuevo concepto de IA llamado Ternary Bonsai, que afirma alcanzar la máxima inteligencia con una eficiencia notable de 1.58 bits. Probablemente discute avances en la compresión de modelos de IA o rendimiento optimizado.

AI models model efficiency machine learning quantization

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

RESEARCHarXiv CS.LG·8/4/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

NEWSHugging Face Blog·hace 21d

OlmoEarth v1.1: A more efficient family of models

OlmoEarth v1.1 es una nueva versión de una familia de modelos, enfocada en una mayor eficiencia. Esta actualización busca optimizar el rendimiento y el uso de recursos.

updates Geospatial AI AI models model efficiency

RESEARCHarXiv CS.LG·28/4/2026

AutoCompress: Critical Layer Isolation for Efficient Transformer Compression

AutoCompress es un método de compresión de transformadores que aísla la Capa 0, considerada crítica, manteniéndola a plena dimensionalidad. Aplicado a GPT-2 Medium, logra una reducción del 59,5% en los parámetros con un rendimiento muy superior a una línea base uniforme.

AI architecture model efficiency deep learning GPT-2

RESEARCHarXiv CS.LG·6/4/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

multi-task learning model efficiency Deep Learning Architectures Mixture of Experts

RESEARCHarXiv CS.AI·1/5/2026

Step-level Optimization for Efficient Computer-use Agents

Esta investigación destaca la ineficiencia de los agentes de uso de computadora actuales, que emplean excesivamente grandes modelos multimodales para cada interacción de interfaz gráfica. Argumenta que las tareas son heterogéneas, con pasos rutinarios que requieren menos cómputo, mientras que los errores se concentran en momentos de alto riesgo como bloqueos o deriva semántica, necesitando optimización dirigida.

multimodal models model efficiency GUI automation AI agents

RESEARCHarXiv CS.LG·24/4/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Este artículo presenta Gist Sparse Attention (GSA), un método de aprendizaje de extremo a extremo para escalar grandes modelos de lenguaje a contextos largos sin modificaciones arquitectónicas. GSA comprime el contexto en 'tokens de esencia' para resumir y luego restaura selectivamente fragmentos brutos relevantes para una atención detallada, combinando representaciones globales compactas con acceso específico y granular.

neural networks model efficiency attention mechanisms large language models

RESEARCHarXiv CS.AI·hace 24d

Enhanced and Efficient Reasoning in Large Learning Models

Este artículo propone un método eficiente y basado en principios para mejorar el razonamiento en Grandes Modelos de Lenguaje, abordando la actual falta de confianza en el contenido generado. El método implica una etapa de preprocesamiento con un Integracode Relacional Unario, seguida de un proceso de aprendizaje automático simplificado.

model efficiency machine learning Reasoning data preprocessing

RESEARCHarXiv CS.LG·7/5/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Esta investigación introduce MP-ISMoE, un marco de Mixture-of-Experts Lateral Interactivo de Precisión Mixta, para mejorar el aprendizaje por transferencia eficiente en parámetros al mitigar la sobrecarga de memoria. Emplea un esquema de Cuantificación Iterativa Perturbada por Ruido Gaussiano (GNP-IQ) para la cuantificación de pesos de menor bit, liberando memoria para mejorar la capacidad de aprendizaje y el rendimiento de la red lateral.

model efficiency learning Transfer Learning quantization