← heapsort-ai

Pruning

4 items

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.

50
RESEARCHarXiv CS.LG·8/4/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

28
RESEARCHarXiv CS.CL·1/5/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Este estudio explora la existencia de neuronas específicas para tareas en grandes modelos de lenguaje, centrándose en el razonamiento matemático y la generación de código. Introduce una métrica de selectividad basada en activación para la poda de neuronas, que supera consistentemente la poda aleatoria en la reducción del costo computacional y el mantenimiento de la precisión de la tarea, previniendo el colapso del rendimiento.

27