model optimization

26 items

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.

Pruning inference Transformer quantization

NEWS↑ trendingReddit r/MachineLearning·22/4/2026

INT3 compression+fused metal kernels [R]

Un investigador y fundador solitario desarrolló compresión de modelos INT3 y una caché KV de 2 bits con kernels Metal personalizados para Mac (M-series). Qwen 7B está disponible en vista previa, y se planean optimizaciones adicionales y soporte para GPU.

Hardware Acceleration LLMs quantization model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

El autor demuestra que emparejar el modelo Qwen3.6-35B con el agente "little-coder" mejora drásticamente su rendimiento en el benchmark Polyglot al 78.7%, haciéndolo competitivo con los principales modelos en la nube. Este hallazgo sugiere que una "desadaptación de arnés" en las configuraciones de prueba podría explicar las brechas de rendimiento entre los modelos de IA locales y en la nube.

LLMs coding agents Benchmarking Agent systems

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un usuario descubrió y solucionó un problema significativo de deriva de tensor en las capas `ssm_conv1d` de los modelos Qwen3.6-35B GGUF cuantificados, proponiendo la métrica de Wasserstein como superior a Kullback Leibler para detectar inestabilidad numérica. La solución, que se dirige específicamente a las capas de transición de estado recurrente responsables de la memoria de contexto largo, ya está disponible en un modelo compartido.

LLMs quantization GGUF model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·16/4/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 ahora incluye una nueva bandera `preserve_thinking` que soluciona el problema de invalidación de la caché KV al mantener el contexto de razonamiento completo del modelo. Esta funcionalidad es especialmente beneficiosa para escenarios de agentes, mejorando la consistencia de las decisiones y optimizando el consumo de tokens y la utilización de la caché KV.

large language models model optimization Qwen AI agents

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

DOC↑ trendingReddit r/MachineLearning·22/4/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Un usuario busca consejo sobre qué benchmarks de calidad ejecutar para medir la degradación del rendimiento al aplicar cuantificación en tiempo de ejecución al modelo de lenguaje grande DeepSeek V3.2. El objetivo es comparar la pérdida de calidad con la versión no cuantificada.

Benchmarking quantization model optimization AI evaluation

RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos ha lanzado ResBM, una nueva arquitectura basada en transformadores para entrenamiento paralelo en pipeline de bajo ancho de banda. Logra una compresión de activación de 128 veces sin pérdida significativa en la convergencia.

distributed training machine learning architecture model optimization Transformers

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

2b or not 2b ? Custom LLM Scheduling Competition [P]

Se ha lanzado una competición en Kaggle centrada en optimizar el coste de los tokens para las respuestas de LLM, desafiando a los participantes a decidir entre ejecutar un modelo pequeño o saltarse la pregunta. El objetivo es minimizar el coste ponderado, considerando los costes de computación, el fallo y la penalización por saltarse una respuesta correcta.

Kaggle Benchmarking model optimization resource management

CASE↑ trendingReddit r/MachineLearning·27/4/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Un usuario notó que la cuantificación INT8 en su modelo de aprendizaje profundo resultó en una mejor precisión de inferencia que FP16, lo cual fue inesperado. Busca explicaciones para el rendimiento superior de INT8 sobre FP16.

inference ONNX deep learning quantization

RESEARCHarXiv CS.LG·16/4/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Este artículo presenta una condición necesaria para el diseño de algoritmos de aprendizaje intragrupal en Reinforcement Learning, exigiendo que los objetivos mantengan la intercambiabilidad de gradientes para evitar derivas irrelevantes. Propone transformaciones mínimas para restaurar esta estructura de cancelación, lo que estabiliza el entrenamiento y mejora la eficiencia de la muestra.

reinforcement learning large language models gradient dynamics model optimization

RESEARCHDEV.to AI·20/4/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner presenta un método de ajuste fino que armoniza la longitud para la poda de razonamiento tipo O1. Esta técnica busca optimizar modelos para mejorar sus capacidades de inferencia.

Pruning Reasoning Fine-tuning model optimization

RESEARCHTogether AI Blog·15/4/2026

Parcae: Doing more with fewer parameters using stable looped models

Parcae es un modelo de lenguaje estable en bucle que iguala la calidad de Transformers del doble de su tamaño con menos parámetros. Presenta las primeras leyes de escalado para el bucle, demostrando que el aumento de la recurrencia es un camino eficiente en computación para un mejor rendimiento.

language models deep learning efficiency model optimization

RESEARCHarXiv CS.LG·20/4/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Esta investigación introduce la compresión secuencial de KV, una novedosa arquitectura de dos capas para caches de clave-valor de transformadores que supera el límite de Shannon por vector. Aprovecha la naturaleza secuencial de los tokens del cache KV, utilizando la deduplicación probabilística de prefijos y la codificación delta predictiva para una compresión más eficiente.

Transformer Architecture AI models LLMs data compression

RESEARCHarXiv CS.CL·7/4/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

Sparsity Low-Rank Decomposition LLM compression large language models

NEWSDEV.to AI·hace 9d

Bonsai Image 4B: difusión de 1 bit que corre en un iPhone

Bonsai Image 4B de PrismML es una familia de modelos de generación de imágenes que utiliza pesos de 1 bit o ternarios para ejecutar difusión de alta calidad directamente en dispositivos como iPhones. Este modelo logra una compresión de 8,3 veces, reduciendo su tamaño de 7,75 GB a 0,93 GB, manteniendo hasta el 95% de la calidad original.

Diffusion Models Edge AI image generation PrismML

RESEARCHDEV.to AI·hace 20d

AI/ML Research Digest — May 16, 2026

Los recientes avances en la investigación de IA/ML mejoran significativamente la eficiencia del modelo y la velocidad de inferencia en diversas aplicaciones. Técnicas como la destilación de conocimiento con adaptadores de bajo rango, la destilación on-policy mejorada, el optimizador Pion y los métodos de poda y destilación están reduciendo los costos computacionales y permitiendo un despliegue más amplio de modelos avanzados de IA.

deep learning machine learning AI Efficiency video generation

RESEARCHarXiv CS.CL·27/4/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Este artículo presenta un sistema eficiente de Generación Aumentada por Recuperación (RAG) para responder preguntas en documentos ucranianos, el cual obtuvo el 2º lugar en la UNLP 2026 Shared Task. Utiliza una búsqueda híbrida personalizada y un modelo de lenguaje ucraniano optimizado y comprimido para una implementación local de alta calidad en hardware con recursos limitados.

Ukrainian language RAG natural language processing Local AI

RESEARCHarXiv CS.LG·7/5/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Esta investigación introduce EdgeRazor, un marco ligero diseñado para desplegar Grandes Modelos de Lenguaje en dispositivos con recursos limitados. Aprovecha la destilación consciente de la cuantificación de precisión mixta para convertir modelos de precisión completa a formatos de bits más bajos, superando las limitaciones de los métodos de cuantificación previos.

LLMs deep learning quantization model optimization

RESEARCHDEV.to AI·25/4/2026

PP-LCNet: A Lightweight CPU Convolutional Neural Network

PP-LCNet introduce una red neuronal convolucional ligera optimizada para un rendimiento eficiente en CPUs. Esta arquitectura se enfoca en lograr alta precisión con mínimas demandas computacionales, adecuada para entornos con recursos limitados.

deep learning lightweight models computer vision Convolutional Neural Networks

RESEARCHarXiv CS.LG·hace 27d

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Los Modelos de Lenguaje de Difusión (dLLMs) encuentran límites de escalabilidad en el paralelismo debido a umbrales de confianza excesivamente conservadores que restringen su potencial de procesamiento altamente paralelo. Este artículo introduce LEAP, un método plug-and-play sin entrenamiento que mejora el paralelismo de los dLLMs al detectar tokens de convergencia temprana, acelerando así la decodificación.

Diffusion Models Parallel Computing AI large language models