← heapsort-ai

Pruning

4 items

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.

50
RESEARCHarXiv CS.LG·4/8/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

28
RESEARCHarXiv CS.CL·5/1/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Diese Studie untersucht die Existenz aufgabenspezifischer Neuronen in großen Sprachmodellen, insbesondere für mathematisches Denken und Codegenerierung. Sie führt eine aktivierungsbasierte Selektivitätsmetrik für das Neuronpruning ein, die das zufällige Pruning bei der Reduzierung der Rechenkosten und der Aufrechterhaltung der Aufgabengenauigkeit übertrifft und einen Leistungskollaps verhindert.

27