model optimization

26 items

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.

Pruning inference Transformer quantization

NEWS↑ trendingReddit r/MachineLearning·4/22/2026

INT3 compression+fused metal kernels [R]

Ein alleiniger Gründer und Forscher hat INT3-Modellkomprimierung und einen 2-Bit-KV-Cache mit kundenspezifischen, fusionierten Metal-Kernels für Mac (M-Serie) entwickelt. Qwen 7B ist als Vorschau verfügbar, und weitere Optimierungen sowie GPU-Unterstützung sind geplant.

Hardware Acceleration LLMs quantization model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

Der Autor zeigt, dass die Kombination des Qwen3.6-35B-Modells mit dem „little-coder“-Agenten dessen Leistung im Polyglot-Benchmark drastisch auf 78,7 % verbessert, wodurch es mit Top-Cloud-Modellen konkurrenzfähig wird. Diese Erkenntnis deutet darauf hin, dass eine „Geschirr-Fehlanpassung“ in den Testaufbauten Leistungsunterschiede zwischen lokalen und Cloud-KI-Modellen erklären könnte.

LLMs coding agents Benchmarking Agent systems

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Ein Nutzer entdeckte und behob ein signifikantes Tensor-Drift-Problem in den `ssm_conv1d`-Layern quantisierter Qwen3.6-35B GGUF-Modelle und schlug die Wasserstein-Metrik als überlegen gegenüber Kullback-Leibler zur Erkennung numerischer Instabilität vor. Die Korrektur, die speziell auf rekurrente Zustandsübergangsschichten für Langkontextgedächtnis abzielt, ist nun in einem geteilten Modell verfügbar.

LLMs quantization GGUF model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·4/16/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 wird jetzt mit einem neuen `preserve_thinking`-Flag ausgeliefert, das das Problem der KV-Cache-Invalidierung durch Beibehaltung des vollständigen Argumentationskontexts des Modells behebt. Diese Funktion ist besonders vorteilhaft für Agenten-Szenarien, da sie die Entscheidungskonsistenz verbessert und den Token-Verbrauch sowie die KV-Cache-Nutzung optimiert.

large language models model optimization Qwen AI agents

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

DOC↑ trendingReddit r/MachineLearning·4/22/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Ein Benutzer sucht Ratschläge, welche Qualitäts-Benchmarks durchgeführt werden sollten, um den Leistungsabfall bei der Anwendung von Laufzeit-Quantisierung auf das DeepSeek V3.2 große Sprachmodell zu messen. Ziel ist es, den Qualitätsverlust im Vergleich zur nicht-quantisierten Version zu bewerten.

Benchmarking quantization model optimization AI evaluation

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos hat ResBM eingeführt, eine neue Transformator-basierte Architektur für Pipeline-paralleles Training mit geringer Bandbreite. Sie erreicht eine 128-fache Aktivierungskompression ohne signifikanten Konvergenzverlust im Vergleich zu unkomprimierten Baselines.

distributed training machine learning architecture model optimization Transformers

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

2b or not 2b ? Custom LLM Scheduling Competition [P]

Ein Kaggle-Wettbewerb wurde gestartet, der sich auf die Optimierung der Token-Kosten für LLM-Antworten konzentriert, indem entschieden wird, ob ein kleines Modell ausgeführt oder eine Frage übersprungen werden soll. Ziel ist es, die gewichteten Kosten zu minimieren, unter Berücksichtigung von Rechenkosten, Fehlschlägen und Strafen für das Überspringen einer korrekten Antwort.

Kaggle Benchmarking model optimization resource management

CASE↑ trendingReddit r/MachineLearning·4/27/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Ein Benutzer stellte fest, dass die INT8-Quantisierung in seinem Deep-Learning-Modell eine bessere Inferenzgenauigkeit als FP16 lieferte, was unerwartet war. Er sucht nach Erklärungen für die überlegene Leistung von INT8 gegenüber FP16.

inference ONNX deep learning quantization

RESEARCHarXiv CS.LG·4/16/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Diese Arbeit präsentiert eine notwendige Bedingung für das Design von Intragruppen-Lernalgorithmen im Reinforcement Learning, die erfordert, dass Zielsetzungen die Gradienten-Austauschbarkeit über Token-Updates hinweg aufrechterhalten, um belohnungsirrelevanten Drift zu verhindern. Sie schlägt minimale Transformationen vor, um diese Aufhebungsstruktur wiederherzustellen, was das Training stabilisiert und die Stichprobeneffizienz verbessert.

reinforcement learning large language models gradient dynamics model optimization

RESEARCHDEV.to AI·4/20/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner stellt eine längen-harmonisierende Feinabstimmungsmethode zur Optimierung von Modellen für O1-ähnliches Reasoning-Pruning vor. Diese Technik zielt darauf ab, die Denkfähigkeiten von KI-Modellen zu verbessern.

Pruning Reasoning Fine-tuning model optimization

RESEARCHTogether AI Blog·4/15/2026

Parcae: Doing more with fewer parameters using stable looped models

Parcae ist ein stabiles, geschleiftes Sprachmodell, das die Qualität eines doppelt so großen Transformers mit weniger Parametern erreicht. Es führt die ersten Skalierungsgesetze für Schleifenmodelle ein und zeigt, dass die Erhöhung der Rekurrenz ein recheneffizienter Weg zu besserer Leistung ist.

language models deep learning efficiency model optimization

RESEARCHarXiv CS.LG·4/20/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Diese Forschung stellt die sequentielle KV-Kompression vor, eine neuartige zweischichtige Architektur für Transformer-Schlüssel-Wert-Caches, die die pro-Vektor-Shannon-Grenze übertrifft. Sie nutzt die sequentielle Natur von KV-Cache-Tokens mittels probabilistischer Präfix-Deduplizierung und prädiktiver Delta-Kodierung für effizientere Kompression.

Transformer Architecture AI models LLMs data compression

RESEARCHarXiv CS.CL·4/7/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

Sparsity Low-Rank Decomposition LLM compression large language models

NEWSDEV.to AI·vor 9T

Bonsai Image 4B: difusión de 1 bit que corre en un iPhone

PrismML hat Bonsai Image 4B auf den Markt gebracht, eine Familie von Bildgenerierungsmodellen, die 1-Bit- oder ternäre Gewichte verwenden, um hochwertige Diffusion direkt auf Geräten wie iPhones auszuführen. Diese Innovation ermöglicht eine 8,3-fache Modellkomprimierung, wodurch die Größe von 7,75 GB auf 0,93 GB reduziert wird, während bis zu 95 % der ursprünglichen Qualität erhalten bleiben.

Diffusion Models Edge AI image generation PrismML

RESEARCHDEV.to AI·vor 20T

AI/ML Research Digest — May 16, 2026

Jüngste Fortschritte in der KI/ML-Forschung verbessern die Modelleffizienz und Inferenzgeschwindigkeit in verschiedenen Anwendungen erheblich. Techniken wie Wissensdestillation mit Low-Rank-Adaptern, verbesserte On-Policy-Destillation, der Pion-Optimierer und Prune-Then-Distill-Methoden senken die Rechenkosten und ermöglichen einen breiteren Einsatz fortschrittlicher KI-Modelle.

deep learning machine learning AI Efficiency video generation

RESEARCHarXiv CS.CL·4/27/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Dieses Papier stellt ein hoch-effizientes Retrieval-Augmented Generation (RAG)-System für die ukrainische Dokumenten-Fragenbeantwortung vor, das den 2. Platz in der UNLP 2026 Shared Task erreichte. Es nutzt eine angepasste Hybridsuche und ein optimiertes ukrainisches Sprachmodell, komprimiert für qualitativ hochwertige, lokale Bereitstellung auf ressourcenbeschränkter Hardware.

Ukrainian language RAG natural language processing Local AI

RESEARCHarXiv CS.LG·5/7/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Diese Forschung stellt EdgeRazor vor, ein leichtgewichtiges Framework zur Bereitstellung großer Sprachmodelle auf ressourcenbeschränkten Geräten. Es nutzt gemischt-präzise quantisierungsbewusste Destillation, um Modelle voller Präzision in Formate mit geringerer Bitrate umzuwandeln und so die Einschränkungen früherer Quantisierungsmethoden zu überwinden.

LLMs deep learning quantization model optimization

RESEARCHDEV.to AI·4/25/2026

PP-LCNet: A Lightweight CPU Convolutional Neural Network

PP-LCNet stellt ein leichtes Convolutional Neural Network vor, das für effiziente Leistung auf CPUs optimiert ist. Diese Architektur konzentriert sich darauf, hohe Genauigkeit bei minimalen Rechenanforderungen zu erzielen, ideal für ressourcenbeschränkte Umgebungen.

deep learning lightweight models computer vision Convolutional Neural Networks

RESEARCHarXiv CS.LG·vor 27T

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Diffusions-Sprachmodelle (dLLMs) stoßen aufgrund übermäßig konservativer Konfidenzschwellen, die ihr Potenzial für hochparallele Verarbeitung einschränken, an Skalierbarkeitsgrenzen im Parallelismus. Dieses Papier stellt LEAP vor, eine trainingsfreie Plug-and-Play-Methode, die den dLLM-Parallelismus durch Erkennung früh konvergierender Token verbessert und somit die Dekodierung beschleunigt.

Diffusion Models Parallel Computing AI large language models