Pruning

4 items

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.

Pruning inference Transformer quantization

RESEARCHDEV.to AI·20/4/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner presenta un método de ajuste fino que armoniza la longitud para la poda de razonamiento tipo O1. Esta técnica busca optimizar modelos para mejorar sus capacidades de inferencia.

Pruning Reasoning Fine-tuning model optimization

RESEARCHarXiv CS.LG·8/4/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

RESEARCHarXiv CS.CL·1/5/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Este estudio explora la existencia de neuronas específicas para tareas en grandes modelos de lenguaje, centrándose en el razonamiento matemático y la generación de código. Introduce una métrica de selectividad basada en activación para la poda de neuronas, que supera consistentemente la poda aleatoria en la reducción del costo computacional y el mantenimiento de la precisión de la tarea, previniendo el colapso del rendimiento.

Pruning AI optimization model collapse large language models