Pruning

4 items

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

O usuário está otimizando um modelo Transformer para tamanho e velocidade de inferência, mas atingiu um platô após FP16 e ONNX, com poda e otimizações de grafo não trazendo ganhos significativos. Ele busca orientação sobre próximas etapas como fatoração de baixo posto, quantização agressiva ou destilação de conhecimento para melhorias reais.

Pruning inference Transformer quantization

RESEARCHDEV.to AI·20/04/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O O1-Pruner introduz um método de ajuste fino (fine-tuning) que harmoniza o comprimento para aprimorar a capacidade de raciocínio através da poda de modelos. Essa técnica visa otimizar modelos para tarefas de raciocínio específicas do tipo O1.

Pruning Reasoning Fine-tuning model optimization

RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

RESEARCHarXiv CS.CL·01/05/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Este estudo explora a existência de neurônios específicos para tarefas em grandes modelos de linguagem, focando em raciocínio matemático e geração de código. Ele introduz uma métrica de seletividade baseada em ativação para poda de neurônios, que supera a poda aleatória na redução de custos computacionais e na preservação da precisão da tarefa, prevenindo o colapso de desempenho.

Pruning AI optimization model collapse large language models