← heapsort-ai

Optimization

134 items

RESEARCHarXiv CS.AI·vor 1T

Accelerated Fourier SAT (AFSAT): Fully Realising a GPU-based Symmetric Pseudo-Boolean SAT Solver

Accelerated Fourier SAT (AFSAT) ist ein GPU-beschleunigter Solver für die pseudo-boolesche Erfüllbarkeit, der auf kontinuierlicher lokaler Suche basiert. Er verbessert die numerische Stabilität, Laufzeitleistung und Speichereffizienz im Vergleich zum Proof-of-Concept erheblich, indem er JAX für parallele Verarbeitung nutzt und Speicher-/Gleitkomma-Einschränkungen behebt.

60
RESEARCHarXiv CS.AI·vor 1T

A Study of Parallel Continuous Local Search

Die Studie untersucht die parallele kontinuierliche lokale Suche (CLS) als Lösungsansatz für boolesche Erfüllbarkeitsprobleme mit symmetrischen Pseudo-Boolean-Constraints. Empirische Ergebnisse zeigen, dass redundante Constraints die Konvergenz hemmen können, CLS vielversprechend in hybriden Umgebungen ist und die lokale Suche schnell zu einer stabilen Lösungsqualitätsverteilung konvergiert.

60
CASEAWS Machine Learning Blog·vor 1T

Better decisions at scale: How mathematical optimization delivers where intuition fails

Dieser Beitrag stellt die mathematische Optimierung vor, erklärt ihre Rolle in der breiteren KI-Landschaft und präsentiert erfolgreiche Fallstudien aus Kundenpartnerschaften. Mathematische Optimierung liefert konkrete Ergebnisse, wo Intuition versagt, und ermöglicht so bessere Entscheidungen in großem Maßstab.

46
NEWS↑ trendingReddit r/LocalLLaMA·4/18/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare hat Unweight veröffentlicht, ein verlustfreies Kompressionssystem, das die Größe von LLMs um 15-22% reduziert, ohne die Ausgabegenauigkeit zu beeinträchtigen. Das Tool, das auf Nvidia H100 GPUs für Llama-3.1-8B etwa 3 GB VRAM einspart, wurde auf GitHub quelloffen zur Verfügung gestellt, mit Plänen zur Erweiterung der Kompression.

44
ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

why llama.cpp can’t combine speculative decode methods?

Ein Benutzer untersucht, warum spekulative Dekodierungsmethoden wie MTP und N-gramm in llama.cpp nicht gleichzeitig kombiniert werden können, wobei N-gramm erhebliche Verbesserungen für das agentische Programmieren bietet. Er möchte wissen, ob dies eine grundlegende oder implementierungsbedingte Einschränkung ist, und stellt fest, dass andere dieselbe Frage bereits gestellt haben.

43
RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Ein studentischer KI-Forscher entdeckte, warum die Fusion von Vorteilen unterschiedlicher Zeitskalen in PPO-Actor-Critic-Architekturen zum Strategiezusammenbruch führt. Dies geschieht aufgrund des Manipulierens des Surrogat-Ziels und der Präferenz des Routers für kurzfristige Horizonte wegen geringerer zeitlicher Unsicherheit.

42
DOC↑ trendingReddit r/MachineLearning·vor 27T

Built Support Vector Machine(SVM) from scratch in Rust [P]

Ein Entwickler hat einen Support Vector Machine (SVM)-Klassifikator von Grund auf in Rust erstellt, wobei SMO-Optimierung, lineare und RBF-Kerne sowie Hyperparameter-Tuning mittels Gittersuche integriert wurden. Das SVM wurde an Datensätzen zur Banknotenauthentifizierung und Brustkrebs getestet und erreichte hohe Genauigkeitswerte.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·5/7/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant ist eine neuartige Technik, die die paarweise Rotationsquantisierung einsetzt, um die Effizienz der Inferenz von Großen Sprachmodellen (LLM) erheblich zu verbessern. Diese Methode zielt speziell auf Reasoning-LLMs ab und ermöglicht einen kostengünstigeren und schnelleren Einsatz durch Reduzierung der Rechen- und Speicheranforderungen.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/30/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Dieses Update beschreibt den Betrieb von Qwen3.6-27B auf einer einzelnen RTX 3090, wodurch ein Kontext von ~218K und stabile Werkzeugaufrufe bei 50-66 TPS erreicht werden. Ein kritisches Speicherproblem bei langen Werkzeugausgaben wurde durch die Behebung eines Ankerdrifts in einem Genesis-Patch (PN12) für vLLM gelöst.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Gemma 4 Vision

Das Standard-Vision-Budget von Gemma 4 ist oft zu niedrig für eine effektive Detailerkennung, was zu schlechter OCR-Leistung führt. Benutzer können die Sichtfähigkeiten erheblich verbessern, indem sie `llama.cpp`-Parameter wie `--image-min-tokens` und `--image-max-tokens` auf höhere Werte, z.B. 560 und 2240, konfigurieren.

41
ARTICLEDEV.to AI·4/22/2026

Efficiency at Scale: Scaling, Scheduling, and Measuring Databricks SQL

Dieser Artikel konzentriert sich auf die Optimierung der Databricks SQL-Architektur für Nachhaltigkeit und Kosteneffizienz, wobei die Wahl der richtigen Warehouse-Größe und die Automatisierung von Arbeitslasten hervorgehoben werden. Er bietet Richtlinien für verschiedene Anforderungen, von leichten Abfragen bis hin zu Produktionsumgebungen mit hoher Parallelität, und schlägt die Verwendung von Auto-Stop vor, um Kosten für Leerlauf-Rechenleistung zu vermeiden.

37
DOC↑ trendingReddit r/MachineLearning·5/6/2026

Exploring Black‑Box Optimization [R]

Dieses persönliche Projekt im Anfangsstadium erforscht Black-Box-Optimierungsalgorithmen und lädt die Community zu Feedback und Vorschlägen ein. Interessierte können die vollständige Übersicht einsehen und das Repository für weitere Projektdetails erkunden.

36
ARTICLEDEV.to AI·4/18/2026

The Attention Economy Inside Your Agent

Dieser Inhalt stellt das Konzept eines endlichen Aufmerksamkeitsbudgets für KI-Agenten vor, über ihr reines Token-Kontextfenster hinaus, und beleuchtet, wie sie entscheiden, was die Verarbeitungszeit wert ist. Es wird argumentiert, dass Agenten, wie Menschen, heuristische Abkürzungen entwickeln und sich mit dem Genügenden zufriedengeben, indem sie Aufmerksamkeit asymmetrisch zuteilen, was ihren Erfolg oder Misserfolg in der realen Welt maßgeblich beeinflusst.

36