Optimization

134 items

RESEARCHarXiv CS.AI·vor 8T

Structure-Induced Information for Rerooting Levin Tree Search

Dieses Papier stellt neue Rerooter-Designs für den $\sqrt{\text{LTS}}$-Algorithmus vor, die die Skalierbarkeitsbeschränkungen der expliziten Subzielgenerierung bei der subgoal-basierten Policy-Baumsuche überwinden. Diese Designs zerlegen Probleme implizit und ermöglichen eine skalierbare Zuweisung des Suchaufwands.

policy search Optimization tree search machine learning

RESEARCHarXiv CS.CL·vor 12T

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec stellt ein Framework für die Echtzeitentwicklung von Entwurfsmodellen in der spekulativen Dekodierung für große Sprachmodelle vor, das das Problem großer Vokabulargrößen angeht. Es verwendet dynamische Vokabular- und Parameteranpassung mittels eines kontextsensitiven Mechanismus und einer leichten Online-Abgleichstrategie zur Verbesserung der Akzeptanzraten und Minimierung von Verteilungsunterschieden.

Optimization machine learning large language models AI inference

RESEARCHarXiv CS.CL·vor 13T

In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective

Diese Forschungsarbeit untersucht Retrieval-Augmented Generation (RAG) aus der Perspektive der In-Context-Optimierung. Sie zeigt, dass eine einzelne lineare Selbstaufmerksamkeitsschicht einen Gradientenabstiegschritt auf einem vereinheitlichten linearisierten RAG-Ziel implementieren kann, was ein exaktes Regime offenbart, in dem abrufgestützte Vorhersage und In-Context-Optimierung zusammenfallen.

Optimization RAG machine learning NLP

RESEARCHDEV.to AI·4/14/2026

Graph Partitioning using Quantum Annealing on the D-Wave System

Dieser Inhalt untersucht die Anwendung von Quanten-Annealing, insbesondere auf dem D-Wave-System, zur Lösung von Graphenpartitionierungsproblemen. Er befasst sich mit der Nutzung von Quantencomputern für komplexe kombinatorische Optimierungsaufgaben.

Quantum Computing Optimization Graph Partitioning Quantum Annealing

ARTICLEDEV.to AI·vor 28T

Training an LLM in Swift: Understanding Faster Matrix Multiplication

Dieser Artikel befasst sich mit der Optimierung der Matrixmultiplikation, einer grundlegenden Operation in KI-Aufgaben, um das LLM-Training mit Swift zu beschleunigen. Ziel ist es, Berechnungen von Gigaflops auf Teraflops zu steigern und so das Sprachverständnis sowie andere KI-Aufgaben erheblich schneller und effizienter zu gestalten.

Optimization Matrix Multiplication Swift AI

DOCDEV.to AI·4/24/2026

Derivatives: Understanding Change

Dieser Inhalt erklärt, wie Ableitungen in der KI entscheidend sind, um die Modellleistung zu optimieren, indem sie den Einfluss von Gewichtsänderungen auf den Vorhersagefehler messen. Er beschreibt, wie das Modell lernt, indem seine Gewichte in die Richtung angepasst werden, die den Fehler reduziert.

neural networks Gradient Descent Optimization machine learning

ARTICLEDEV.to AI·vor 16T

MCPs Are Eating Your Context Window (And What To Do About It)

Dieser Artikel untersucht, wie Model Context Protocol (MCP)-Server das Kontextfenster eines KI-Modells durch das Vorabladen von Tool-Schemas verbrauchen, was zu einem hohen Token-Verbrauch führt. Es wird vorgeschlagen, dass „Fähigkeiten“ dieses Problem durch faules Laden von Tools lösen können, wodurch Kosten und Effizienz optimiert werden.

Optimization API Token usage AI agents

ARTICLEDEV.to AI·vor 22T

We tried routing between 4 different LLMs automatically – here's what we learned

Ein Experiment untersuchte das Routing von KI-Anfragen an verschiedene LLMs (DeepSeek-V4 Pro, Kimi 2.6, MiniMax 2.7, Qwen3 235B) basierend auf der Aufgabe. Es zeigte sich, dass kein einzelnes Modell alle Aufgaben am besten bewältigte, und einfache YAML-Regeln effektiv waren, während komplexes Routing und Kostenprognosen fehlschlugen.

AI models Optimization LLMs routing

ARTICLEDEV.to AI·4/27/2026

Context Compression in .NET

Dieser schnelle Tipp erklärt, wie Kontextkomprimierung in .NET für RAG-Systeme implementiert werden kann, da ein direktes Äquivalent zu Tools wie LLMLingua fehlt. Es wird vorgeschlagen, ein kleineres, günstigeres Arbeitsmodell zu verwenden, um abgerufene Dokumentation vorzuverarbeiten und nur wesentliche Fakten zu extrahieren, um Kosten und Latenz bei Premium-KI-Modellen zu reduzieren.

Optimization prompt engineering RAG AI

ARTICLEDEV.to AI·4/24/2026

"AI-powered inventory management for small retail businesses: How to reduce stoc

Dieser Artikel untersucht, wie KI-gestütztes Bestandsmanagement kleine Einzelhandelsunternehmen revolutionieren kann. Er beschreibt die Vorteile der präzisen Nachfrageprognose mittels verschiedener Faktoren, um Fehlbestände und Überbestände zu vermeiden.

AI applications Optimization business efficiency retail

RESEARCHDEV.to AI·4/21/2026

Multi-Objective Deep Reinforcement Learning

Dieser Inhalt befasst sich mit dem Bereich des Multi-Objective Deep Reinforcement Learning. Er behandelt wahrscheinlich Techniken zum Trainieren von KI-Agenten, um mehrere Leistungskriterien gleichzeitig zu optimieren.

Optimization deep learning reinforcement learning

ARTICLEDEV.to AI·4/25/2026

"AI-Powered HVAC Contractor Lead Scoring & Dispatch Optimization Suite with Low-

Dieser Bericht beschreibt, wie KI-gesteuerte Lead-Bewertung und Versandoptimierung die Effizienz und Konversionsraten für HVAC-Unternehmen verbessern können. Er skizziert einen Implementierungsplan mit geringen Einstiegshürden, gestützt auf Branchendaten und Trends.

lead management HVAC Optimization AI

RESEARCHarXiv CS.AI·4/6/2026

Interpretable Deep Reinforcement Learning for Element-level Bridge Life-cycle Optimization

O artigo aborda a aplicação de Aprendizado por Reforço Profundo interpretável para a otimização do ciclo de vida de pontes em nível de elemento. Ele busca oferecer transparência e eficiência na gestão da infraestrutura.

Deep Reinforcement Learning Optimization interpretable AI Civil Engineering

RESEARCHarXiv CS.LG·4/6/2026

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

neural networks Optimization browsers Overhead

RESEARCHarXiv CS.AI·4/30/2026

Hierarchical Multi-Persona Induction from User Behavioral Logs: Learning Evidence-Grounded and Truthful Personas

Dieser Artikel schlägt einen hierarchischen Rahmen vor, um evidenzbasierte Benutzer-Personas aus Verhaltensprotokollen zu induzieren, indem die Persona-Qualität optimiert wird. Die Methode nutzt eine gruppengeweise Erweiterung von DPO und zeigt kohärentere, wahrheitsgetreuere Personas sowie eine verbesserte Vorhersage zukünftiger Interaktionen.

Optimization LLMs machine learning persona generation

RESEARCHarXiv CS.AI·5/6/2026

Accelerating battery research with an AI interface between FINALES and Kadi4Mat

Diese Studie optimiert Formierungsprotokolle für Natrium-Ionen-Knopfzellen hinsichtlich Dauereffizienz und Lebensdauerleistung, unter Verwendung einer KI-Schnittstelle zwischen FINALES und Kadi4Mat. Der Rahmen nutzt mehrzielige Stapel-Bayes'sche Optimierung zur Steuerung der Experimentauswahl, um die Entdeckung zu beschleunigen und den Ressourcenverbrauch zu reduzieren.

Materials Science Optimization machine learning AI

ARTICLETogether AI Blog·4/24/2026

Accelerate RL rollouts by up to 50% with distribution-aware speculative decoding

DAS (verteilungsbewusste spekulative Dekodierung) behebt den Rollout-Engpass im RL-Nachtraining. Es beschleunigt Rollouts um bis zu 50 % ohne Einbußen bei der Belohnungsqualität.

Optimization AI acceleration reinforcement learning machine learning

ARTICLETogether AI Blog·vor 8T

Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets

Together ermöglichte eine effiziente Inferenz für MiniMax-M3, wodurch ein 1M-Token-Kontext und Multimodalität freigeschaltet wurden. Dies wurde durch KV-block-major sparse attention, paged MSA decode, optimiertes Index-Scoring und ein Rust-basiertes multimodales Gateway erreicht.

System design Optimization Multimodality large language models

RESEARCHarXiv CS.AI·4/14/2026

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Diese Arbeit stellt neuartige, auf linearer Programmierung basierende Virtual Gap Analysis (VGA)-Modelle zur multikriteriellen Bewertung vor, die Probleme subjektiver Einschätzungen und Datenvielfalt adressieren. Die zweistufige Methode bewertet Alternativen pessimistisch unter Verwendung kardinaler und ordinaler Daten, was ein effizientes Ranking und die Eliminierung ungünstiger Optionen innerhalb von Entscheidungsunterstützungssystemen ermöglicht.

Optimization Decision Making Linear Programming Multi-Criteria Analysis

RESEARCHarXiv CS.AI·4/22/2026

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Dieses Papier behandelt das Problem der Variable Gapped Longest Common Subsequence (VGLCS), eine Verallgemeinerung des LCS-Problems mit flexiblen Lückenbeschränkungen, relevant für den Vergleich molekularer Sequenzen und die Zeitreihenanalyse. Es wird ein Suchrahmenwerk basierend auf einer wurzelbasierten Zustandsgraphendarstellung und einer iterativen Beam-Search-Strategie vorgeschlagen, um die kombinatorische Explosion zu bewältigen und qualitativ hochwertige Lösungen zu finden.

search algorithms Optimization Algorithms Time Series Analysis