← heapsort-ai

Pruning

4 items

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

O usuário está otimizando um modelo Transformer para tamanho e velocidade de inferência, mas atingiu um platô após FP16 e ONNX, com poda e otimizações de grafo não trazendo ganhos significativos. Ele busca orientação sobre próximas etapas como fatoração de baixo posto, quantização agressiva ou destilação de conhecimento para melhorias reais.

50
RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

28
RESEARCHarXiv CS.CL·01/05/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Este estudo explora a existência de neurônios específicos para tarefas em grandes modelos de linguagem, focando em raciocínio matemático e geração de código. Ele introduz uma métrica de seletividade baseada em ativação para poda de neurônios, que supera a poda aleatória na redução de custos computacionais e na preservação da precisão da tarefa, prevenindo o colapso de desempenho.

27