← heapsort-ai

model optimization

26 items

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.

50
ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

Der Autor zeigt, dass die Kombination des Qwen3.6-35B-Modells mit dem „little-coder“-Agenten dessen Leistung im Polyglot-Benchmark drastisch auf 78,7 % verbessert, wodurch es mit Top-Cloud-Modellen konkurrenzfähig wird. Diese Erkenntnis deutet darauf hin, dass eine „Geschirr-Fehlanpassung“ in den Testaufbauten Leistungsunterschiede zwischen lokalen und Cloud-KI-Modellen erklären könnte.

46
RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Ein Nutzer entdeckte und behob ein signifikantes Tensor-Drift-Problem in den `ssm_conv1d`-Layern quantisierter Qwen3.6-35B GGUF-Modelle und schlug die Wasserstein-Metrik als überlegen gegenüber Kullback-Leibler zur Erkennung numerischer Instabilität vor. Die Korrektur, die speziell auf rekurrente Zustandsübergangsschichten für Langkontextgedächtnis abzielt, ist nun in einem geteilten Modell verfügbar.

44
ARTICLE↑ trendingReddit r/LocalLLaMA·4/16/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 wird jetzt mit einem neuen `preserve_thinking`-Flag ausgeliefert, das das Problem der KV-Cache-Invalidierung durch Beibehaltung des vollständigen Argumentationskontexts des Modells behebt. Diese Funktion ist besonders vorteilhaft für Agenten-Szenarien, da sie die Entscheidungskonsistenz verbessert und den Token-Verbrauch sowie die KV-Cache-Nutzung optimiert.

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.
43
RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos hat ResBM eingeführt, eine neue Transformator-basierte Architektur für Pipeline-paralleles Training mit geringer Bandbreite. Sie erreicht eine 128-fache Aktivierungskompression ohne signifikanten Konvergenzverlust im Vergleich zu unkomprimierten Baselines.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

2b or not 2b ? Custom LLM Scheduling Competition [P]

Ein Kaggle-Wettbewerb wurde gestartet, der sich auf die Optimierung der Token-Kosten für LLM-Antworten konzentriert, indem entschieden wird, ob ein kleines Modell ausgeführt oder eine Frage übersprungen werden soll. Ziel ist es, die gewichteten Kosten zu minimieren, unter Berücksichtigung von Rechenkosten, Fehlschlägen und Strafen für das Überspringen einer korrekten Antwort.

41
RESEARCHarXiv CS.LG·4/16/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Diese Arbeit präsentiert eine notwendige Bedingung für das Design von Intragruppen-Lernalgorithmen im Reinforcement Learning, die erfordert, dass Zielsetzungen die Gradienten-Austauschbarkeit über Token-Updates hinweg aufrechterhalten, um belohnungsirrelevanten Drift zu verhindern. Sie schlägt minimale Transformationen vor, um diese Aufhebungsstruktur wiederherzustellen, was das Training stabilisiert und die Stichprobeneffizienz verbessert.

29
RESEARCHarXiv CS.LG·4/20/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Diese Forschung stellt die sequentielle KV-Kompression vor, eine neuartige zweischichtige Architektur für Transformer-Schlüssel-Wert-Caches, die die pro-Vektor-Shannon-Grenze übertrifft. Sie nutzt die sequentielle Natur von KV-Cache-Tokens mittels probabilistischer Präfix-Deduplizierung und prädiktiver Delta-Kodierung für effizientere Kompression.

27
RESEARCHarXiv CS.CL·4/7/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

27
NEWSDEV.to AI·vor 9T

Bonsai Image 4B: difusión de 1 bit que corre en un iPhone

PrismML hat Bonsai Image 4B auf den Markt gebracht, eine Familie von Bildgenerierungsmodellen, die 1-Bit- oder ternäre Gewichte verwenden, um hochwertige Diffusion direkt auf Geräten wie iPhones auszuführen. Diese Innovation ermöglicht eine 8,3-fache Modellkomprimierung, wodurch die Größe von 7,75 GB auf 0,93 GB reduziert wird, während bis zu 95 % der ursprünglichen Qualität erhalten bleiben.

27
RESEARCHDEV.to AI·vor 20T

AI/ML Research Digest — May 16, 2026

Jüngste Fortschritte in der KI/ML-Forschung verbessern die Modelleffizienz und Inferenzgeschwindigkeit in verschiedenen Anwendungen erheblich. Techniken wie Wissensdestillation mit Low-Rank-Adaptern, verbesserte On-Policy-Destillation, der Pion-Optimierer und Prune-Then-Distill-Methoden senken die Rechenkosten und ermöglichen einen breiteren Einsatz fortschrittlicher KI-Modelle.

27
RESEARCHarXiv CS.CL·4/27/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Dieses Papier stellt ein hoch-effizientes Retrieval-Augmented Generation (RAG)-System für die ukrainische Dokumenten-Fragenbeantwortung vor, das den 2. Platz in der UNLP 2026 Shared Task erreichte. Es nutzt eine angepasste Hybridsuche und ein optimiertes ukrainisches Sprachmodell, komprimiert für qualitativ hochwertige, lokale Bereitstellung auf ressourcenbeschränkter Hardware.

27
RESEARCHarXiv CS.LG·5/7/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Diese Forschung stellt EdgeRazor vor, ein leichtgewichtiges Framework zur Bereitstellung großer Sprachmodelle auf ressourcenbeschränkten Geräten. Es nutzt gemischt-präzise quantisierungsbewusste Destillation, um Modelle voller Präzision in Formate mit geringerer Bitrate umzuwandeln und so die Einschränkungen früherer Quantisierungsmethoden zu überwinden.

27
RESEARCHarXiv CS.LG·vor 27T

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Diffusions-Sprachmodelle (dLLMs) stoßen aufgrund übermäßig konservativer Konfidenzschwellen, die ihr Potenzial für hochparallele Verarbeitung einschränken, an Skalierbarkeitsgrenzen im Parallelismus. Dieses Papier stellt LEAP vor, eine trainingsfreie Plug-and-Play-Methode, die den dLLM-Parallelismus durch Erkennung früh konvergierender Token verbessert und somit die Dekodierung beschleunigt.

27