Pruning

4 items

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.

Pruning inference Transformer quantization

RESEARCHDEV.to AI·4/20/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner stellt eine längen-harmonisierende Feinabstimmungsmethode zur Optimierung von Modellen für O1-ähnliches Reasoning-Pruning vor. Diese Technik zielt darauf ab, die Denkfähigkeiten von KI-Modellen zu verbessern.

Pruning Reasoning Fine-tuning model optimization

RESEARCHarXiv CS.LG·4/8/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

RESEARCHarXiv CS.CL·5/1/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Diese Studie untersucht die Existenz aufgabenspezifischer Neuronen in großen Sprachmodellen, insbesondere für mathematisches Denken und Codegenerierung. Sie führt eine aktivierungsbasierte Selektivitätsmetrik für das Neuronpruning ein, die das zufällige Pruning bei der Reduzierung der Rechenkosten und der Aufrechterhaltung der Aufgabengenauigkeit übertrifft und einen Leistungskollaps verhindert.

Pruning AI optimization model collapse large language models