← heapsort-ai

model optimization

26 items

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.

50
ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

El autor demuestra que emparejar el modelo Qwen3.6-35B con el agente "little-coder" mejora drásticamente su rendimiento en el benchmark Polyglot al 78.7%, haciéndolo competitivo con los principales modelos en la nube. Este hallazgo sugiere que una "desadaptación de arnés" en las configuraciones de prueba podría explicar las brechas de rendimiento entre los modelos de IA locales y en la nube.

46
RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un usuario descubrió y solucionó un problema significativo de deriva de tensor en las capas `ssm_conv1d` de los modelos Qwen3.6-35B GGUF cuantificados, proponiendo la métrica de Wasserstein como superior a Kullback Leibler para detectar inestabilidad numérica. La solución, que se dirige específicamente a las capas de transición de estado recurrente responsables de la memoria de contexto largo, ya está disponible en un modelo compartido.

44
ARTICLE↑ trendingReddit r/LocalLLaMA·16/4/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 ahora incluye una nueva bandera `preserve_thinking` que soluciona el problema de invalidación de la caché KV al mantener el contexto de razonamiento completo del modelo. Esta funcionalidad es especialmente beneficiosa para escenarios de agentes, mejorando la consistencia de las decisiones y optimizando el consumo de tokens y la utilización de la caché KV.

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.
43
RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos ha lanzado ResBM, una nueva arquitectura basada en transformadores para entrenamiento paralelo en pipeline de bajo ancho de banda. Logra una compresión de activación de 128 veces sin pérdida significativa en la convergencia.

42
ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

2b or not 2b ? Custom LLM Scheduling Competition [P]

Se ha lanzado una competición en Kaggle centrada en optimizar el coste de los tokens para las respuestas de LLM, desafiando a los participantes a decidir entre ejecutar un modelo pequeño o saltarse la pregunta. El objetivo es minimizar el coste ponderado, considerando los costes de computación, el fallo y la penalización por saltarse una respuesta correcta.

41
RESEARCHarXiv CS.LG·16/4/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Este artículo presenta una condición necesaria para el diseño de algoritmos de aprendizaje intragrupal en Reinforcement Learning, exigiendo que los objetivos mantengan la intercambiabilidad de gradientes para evitar derivas irrelevantes. Propone transformaciones mínimas para restaurar esta estructura de cancelación, lo que estabiliza el entrenamiento y mejora la eficiencia de la muestra.

29
RESEARCHarXiv CS.LG·20/4/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Esta investigación introduce la compresión secuencial de KV, una novedosa arquitectura de dos capas para caches de clave-valor de transformadores que supera el límite de Shannon por vector. Aprovecha la naturaleza secuencial de los tokens del cache KV, utilizando la deduplicación probabilística de prefijos y la codificación delta predictiva para una compresión más eficiente.

27
RESEARCHarXiv CS.CL·7/4/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

27
RESEARCHDEV.to AI·hace 20d

AI/ML Research Digest — May 16, 2026

Los recientes avances en la investigación de IA/ML mejoran significativamente la eficiencia del modelo y la velocidad de inferencia en diversas aplicaciones. Técnicas como la destilación de conocimiento con adaptadores de bajo rango, la destilación on-policy mejorada, el optimizador Pion y los métodos de poda y destilación están reduciendo los costos computacionales y permitiendo un despliegue más amplio de modelos avanzados de IA.

27
RESEARCHarXiv CS.CL·27/4/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Este artículo presenta un sistema eficiente de Generación Aumentada por Recuperación (RAG) para responder preguntas en documentos ucranianos, el cual obtuvo el 2º lugar en la UNLP 2026 Shared Task. Utiliza una búsqueda híbrida personalizada y un modelo de lenguaje ucraniano optimizado y comprimido para una implementación local de alta calidad en hardware con recursos limitados.

27
RESEARCHarXiv CS.LG·7/5/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Esta investigación introduce EdgeRazor, un marco ligero diseñado para desplegar Grandes Modelos de Lenguaje en dispositivos con recursos limitados. Aprovecha la destilación consciente de la cuantificación de precisión mixta para convertir modelos de precisión completa a formatos de bits más bajos, superando las limitaciones de los métodos de cuantificación previos.

27
RESEARCHarXiv CS.LG·hace 27d

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Los Modelos de Lenguaje de Difusión (dLLMs) encuentran límites de escalabilidad en el paralelismo debido a umbrales de confianza excesivamente conservadores que restringen su potencial de procesamiento altamente paralelo. Este artículo introduce LEAP, un método plug-and-play sin entrenamiento que mejora el paralelismo de los dLLMs al detectar tokens de convergencia temprana, acelerando así la decodificación.

27