Optimization

134 items

RESEARCHarXiv CS.AI·vor 1T

Accelerated Fourier SAT (AFSAT): Fully Realising a GPU-based Symmetric Pseudo-Boolean SAT Solver

Accelerated Fourier SAT (AFSAT) ist ein GPU-beschleunigter Solver für die pseudo-boolesche Erfüllbarkeit, der auf kontinuierlicher lokaler Suche basiert. Er verbessert die numerische Stabilität, Laufzeitleistung und Speichereffizienz im Vergleich zum Proof-of-Concept erheblich, indem er JAX für parallele Verarbeitung nutzt und Speicher-/Gleitkomma-Einschränkungen behebt.

SAT solver Computational logic GPU computing Optimization

RESEARCHarXiv CS.AI·vor 1T

A Study of Parallel Continuous Local Search

Die Studie untersucht die parallele kontinuierliche lokale Suche (CLS) als Lösungsansatz für boolesche Erfüllbarkeitsprobleme mit symmetrischen Pseudo-Boolean-Constraints. Empirische Ergebnisse zeigen, dass redundante Constraints die Konvergenz hemmen können, CLS vielversprechend in hybriden Umgebungen ist und die lokale Suche schnell zu einer stabilen Lösungsqualitätsverteilung konvergiert.

Optimization Boolean Satisfiability Local Search Parallel Computing

ARTICLEDEV.to AI·4/23/2026

Serving Infrastructure — Deep Dive + Problem: Softmax Function

Die Serving-Infrastruktur ist entscheidend für die Bereitstellung und Verwaltung großer Sprachmodelle (LLMs) in Produktionsumgebungen, um eine effiziente und zuverlässige Bereitstellung von Modellvorhersagen zu gewährleisten. Sie überbrückt die Lücke zwischen Modellentwicklung und realer Anwendung und beeinflusst direkt Leistung, Skalierbarkeit und Wartbarkeit.

Scalability Optimization LLMs deployment

RESEARCHarXiv CS.AI·vor 19Std

Improving Multimodal Reasoning via Worst Dimension Optimization

Multimodales Denken erfordert die Integrität über verschiedene Einschränkungen hinweg, wie visuelle Erdung und logische Konsistenz. Aktuelle Prozess-Belohnungsmodelle verdecken oft individuelle Dimensionsfehler, indem sie Faktoren gleich gewichten, was den gesamten Denkprozess beeinträchtigt.

Optimization multimodal AI machine learning AI Reasoning

CASEAWS Machine Learning Blog·vor 1T

Better decisions at scale: How mathematical optimization delivers where intuition fails

Dieser Beitrag stellt die mathematische Optimierung vor, erklärt ihre Rolle in der breiteren KI-Landschaft und präsentiert erfolgreiche Fallstudien aus Kundenpartnerschaften. Mathematische Optimierung liefert konkrete Ergebnisse, wo Intuition versagt, und ermöglicht so bessere Entscheidungen in großem Maßstab.

mathematical optimization Optimization Decision Making Innovation

ARTICLEDEV.to AI·4/23/2026

Stop Using sleep() in Your Agent Loops: Event-Driven AI Agent Scheduling

Dieser Artikel kritisiert die gängige Verwendung von `sleep()` in KI-Agentenschleifen und hebt deren Kosten hinsichtlich API-Budgetverschwendung, hoher Latenz und maskierten Fehlern hervor. Er plädiert für eine ereignisgesteuerte Planung als überlegene Alternative zur Kosten- und Leistungsoptimierung in großem Maßstab.

Optimization performance developer tools scheduling

NEWS↑ trendingReddit r/LocalLLaMA·4/18/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare hat Unweight veröffentlicht, ein verlustfreies Kompressionssystem, das die Größe von LLMs um 15-22% reduziert, ohne die Ausgabegenauigkeit zu beeinträchtigen. Das Tool, das auf Nvidia H100 GPUs für Llama-3.1-8B etwa 3 GB VRAM einspart, wurde auf GitHub quelloffen zur Verfügung gestellt, mit Plänen zur Erweiterung der Kompression.

Open Source Optimization GPU compression

ARTICLE↑ trendingHacker News (AI)·vor 6T

Lean Inference: Lean Manufacturing Principles Applied to AI

Dieser Artikel untersucht die Anwendung von Lean Manufacturing-Prinzipien auf die KI-Inferenz, um die Effizienz zu optimieren und Verschwendung in Workflows der künstlichen Intelligenz zu reduzieren. Er beschreibt, wie schlanke Methoden zur Verbesserung der Leistung und Nachhaltigkeit von KI-Systemen eingesetzt werden können.

MLOps Optimization Lean Manufacturing efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

why llama.cpp can’t combine speculative decode methods?

Ein Benutzer untersucht, warum spekulative Dekodierungsmethoden wie MTP und N-gramm in llama.cpp nicht gleichzeitig kombiniert werden können, wobei N-gramm erhebliche Verbesserungen für das agentische Programmieren bietet. Er möchte wissen, ob dies eine grundlegende oder implementierungsbedingte Einschränkung ist, und stellt fest, dass andere dieselbe Frage bereits gestellt haben.

Optimization LLMs llama.cpp Qwen3.6

NEWS↑ trendingReddit r/LocalLLaMA·4/27/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash stellt einen GGUF-Port der DFlash spekulativen Dekodierung für Qwen3.6-27B vor, der auf einer einzelnen RTX 3090 fast den doppelten Durchsatz erreicht. Dieser eigenständige C++/CUDA-Stack, als MIT-lizenzierte Open-Source-Software verfügbar, steigert die LLM-Leistung auf Consumer-Hardware erheblich.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Ein studentischer KI-Forscher entdeckte, warum die Fusion von Vorteilen unterschiedlicher Zeitskalen in PPO-Actor-Critic-Architekturen zum Strategiezusammenbruch führt. Dies geschieht aufgrund des Manipulierens des Surrogat-Ziels und der Präferenz des Routers für kurzfristige Horizonte wegen geringerer zeitlicher Unsicherheit.

Optimization Actor-Critic reinforcement learning PPO

DOC↑ trendingReddit r/MachineLearning·vor 27T

Built Support Vector Machine(SVM) from scratch in Rust [P]

Ein Entwickler hat einen Support Vector Machine (SVM)-Klassifikator von Grund auf in Rust erstellt, wobei SMO-Optimierung, lineare und RBF-Kerne sowie Hyperparameter-Tuning mittels Gittersuche integriert wurden. Das SVM wurde an Datensätzen zur Banknotenauthentifizierung und Brustkrebs getestet und erreichte hohe Genauigkeitswerte.

support-vector-machine Optimization machine learning Hyperparameters

RESEARCH↑ trendingReddit r/LocalLLaMA·5/7/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant ist eine neuartige Technik, die die paarweise Rotationsquantisierung einsetzt, um die Effizienz der Inferenz von Großen Sprachmodellen (LLM) erheblich zu verbessern. Diese Methode zielt speziell auf Reasoning-LLMs ab und ermöglicht einen kostengünstigeren und schnelleren Einsatz durch Reduzierung der Rechen- und Speicheranforderungen.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ARTICLE↑ trendingReddit r/LocalLLaMA·4/30/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Dieses Update beschreibt den Betrieb von Qwen3.6-27B auf einer einzelnen RTX 3090, wodurch ein Kontext von ~218K und stabile Werkzeugaufrufe bei 50-66 TPS erreicht werden. Ein kritisches Speicherproblem bei langen Werkzeugausgaben wurde durch die Behebung eines Ankerdrifts in einem Genesis-Patch (PN12) für vLLM gelöst.

Optimization hardware performance vLLM

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

Der Titel beschreibt eine beeindruckende Optimierung für das Qwen3.6–27B-Modell, die 85 TPS und 125K Kontext mit Sehfähigkeiten auf einer einzelnen RTX 3090 erreicht. Dies ist eine bedeutende technische Leistung für den effizienten Einsatz von LLMs.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Gemma 4 Vision

Das Standard-Vision-Budget von Gemma 4 ist oft zu niedrig für eine effektive Detailerkennung, was zu schlechter OCR-Leistung führt. Benutzer können die Sichtfähigkeiten erheblich verbessern, indem sie `llama.cpp`-Parameter wie `--image-min-tokens` und `--image-max-tokens` auf höhere Werte, z.B. 560 und 2240, konfigurieren.

Optimization Configuration computer vision Gemma

ARTICLEDEV.to AI·4/22/2026

Efficiency at Scale: Scaling, Scheduling, and Measuring Databricks SQL

Dieser Artikel konzentriert sich auf die Optimierung der Databricks SQL-Architektur für Nachhaltigkeit und Kosteneffizienz, wobei die Wahl der richtigen Warehouse-Größe und die Automatisierung von Arbeitslasten hervorgehoben werden. Er bietet Richtlinien für verschiedene Anforderungen, von leichten Abfragen bis hin zu Produktionsumgebungen mit hoher Parallelität, und schlägt die Verwendung von Auto-Stop vor, um Kosten für Leerlauf-Rechenleistung zu vermeiden.

cost management Optimization Databricks cloud computing

DOC↑ trendingReddit r/MachineLearning·5/6/2026

Exploring Black‑Box Optimization [R]

Dieses persönliche Projekt im Anfangsstadium erforscht Black-Box-Optimierungsalgorithmen und lädt die Community zu Feedback und Vorschlägen ein. Interessierte können die vollständige Übersicht einsehen und das Repository für weitere Projektdetails erkunden.

Optimization machine learning Algorithms

ARTICLEDEV.to AI·4/18/2026

The Attention Economy Inside Your Agent

Dieser Inhalt stellt das Konzept eines endlichen Aufmerksamkeitsbudgets für KI-Agenten vor, über ihr reines Token-Kontextfenster hinaus, und beleuchtet, wie sie entscheiden, was die Verarbeitungszeit wert ist. Es wird argumentiert, dass Agenten, wie Menschen, heuristische Abkürzungen entwickeln und sich mit dem Genügenden zufriedengeben, indem sie Aufmerksamkeit asymmetrisch zuteilen, was ihren Erfolg oder Misserfolg in der realen Welt maßgeblich beeinflusst.

Heuristics Optimization AI design AI agents

ARTICLEDEV.to AI·vor 18T

How AI Allocation Engines Optimize Multi-Partner Delivery Networks

KI-Zuweisungs-Engines optimieren Liefernetzwerke mit mehreren Partnern, indem sie Echtzeitvariablen wie Fahrer Verfügbarkeit, Verkehr und Nachfrage analysieren. Sie verteilen Lieferungen dynamisch und verbessern so die Effizienz und Skalierbarkeit in Logistikabläufen.

logistics Optimization delivery networks AI