Optimization

134 items

RESEARCHarXiv CS.AI·il y a 8j

Structure-Induced Information for Rerooting Levin Tree Search

Cet article présente de nouvelles conceptions de "rerooter" pour l'algorithme $\sqrt{\text{LTS}}$, résolvant les limitations d'évolutivité de la génération explicite de sous-objectifs dans la recherche arborescente de politiques basée sur des sous-objectifs. Ces conceptions décomposent implicitement les problèmes, permettant une allocation évolutive de l'effort de recherche.

policy search Optimization tree search machine learning

RESEARCHarXiv CS.CL·il y a 12j

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec propose un cadre pour l'évolution en temps réel des modèles de brouillon dans le décodage spéculatif pour les Grands Modèles de Langage, s'attaquant au goulot d'étranglement des grandes tailles de vocabulaire. Il utilise une adaptation dynamique du vocabulaire et des paramètres, employant un mécanisme conscient du contexte et une stratégie d'alignement en ligne légère pour améliorer les taux d'acceptation et minimiser les écarts de distribution.

Optimization machine learning large language models AI inference

RESEARCHarXiv CS.CL·il y a 13j

In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective

Cet article de recherche explore la Génération Augmentée par Récupération (RAG) sous l'angle de l'optimisation en contexte. Il démontre qu'une seule couche d'auto-attention linéaire peut exécuter une étape de descente de gradient sur un objectif RAG linéarisé unifié, révélant un régime exact où la prédiction augmentée par récupération et l'optimisation en contexte coïncident.

Optimization RAG machine learning NLP

RESEARCHDEV.to AI·14/04/2026

Graph Partitioning using Quantum Annealing on the D-Wave System

Ce contenu explore l'application du recuit quantique, spécifiquement sur le système D-Wave, pour résoudre les problèmes de partitionnement de graphes. Il approfondit l'exploitation du calcul quantique pour des défis d'optimisation combinatoire complexes.

Quantum Computing Optimization Graph Partitioning Quantum Annealing

ARTICLEDEV.to AI·il y a 28j

Training an LLM in Swift: Understanding Faster Matrix Multiplication

Cet article explore l'optimisation de la multiplication matricielle, une opération fondamentale dans les tâches d'IA, pour accélérer l'entraînement des LLMs avec Swift. L'objectif est d'augmenter les calculs des gigaflops aux téraflops, rendant la compréhension du langage et d'autres tâches d'IA significativement plus rapides et efficaces.

Optimization Matrix Multiplication Swift AI

DOCDEV.to AI·24/04/2026

Derivatives: Understanding Change

Ce contenu explique comment les dérivées sont cruciales en IA pour optimiser la performance des modèles, en mesurant l'impact des ajustements de poids sur la perte de prédiction. Il décrit comment guider le modèle à apprendre en ajustant ses poids dans la direction qui réduit la perte.

neural networks Gradient Descent Optimization machine learning

ARTICLEDEV.to AI·il y a 16j

MCPs Are Eating Your Context Window (And What To Do About It)

Cet article examine comment les serveurs du protocole de contexte de modèle (MCP) consomment la fenêtre de contexte d'un modèle d'IA en préchargeant les schémas d'outils, entraînant une forte consommation de jetons. Il suggère que les "compétences" peuvent résoudre ce problème en chargeant paresseusement les outils, optimisant ainsi les coûts et l'efficacité.

Optimization API Token usage AI agents

ARTICLEDEV.to AI·il y a 22j

We tried routing between 4 different LLMs automatically – here's what we learned

Une expérience a exploré le routage de requêtes IA vers différents LLM (DeepSeek-V4 Pro, Kimi 2.6, MiniMax 2.7, Qwen3 235B) en fonction de la tâche. Il a été constaté qu'aucun modèle unique n'était le meilleur pour toutes les tâches, et des règles YAML simples se sont avérées efficaces, tandis que le routage complexe et la prédiction des coûts ont échoué.

AI models Optimization LLMs routing

ARTICLEDEV.to AI·27/04/2026

Context Compression in .NET

Cette astuce rapide explique comment implémenter la compression de contexte en .NET pour les systèmes RAG, palliant l'absence d'un équivalent direct à des outils comme LLMLingua. Elle suggère d'utiliser un modèle de travail plus petit et moins cher pour prétraiter la documentation récupérée, n'extrayant que les faits essentiels afin de réduire les coûts et la latence avec les modèles d'IA premium.

Optimization prompt engineering RAG AI

ARTICLEDEV.to AI·24/04/2026

"AI-powered inventory management for small retail businesses: How to reduce stoc

Cet article explore comment la gestion des stocks basée sur l'IA peut révolutionner les petites entreprises de vente au détail. Il détaille les avantages de prévoir avec précision la demande en utilisant de multiples facteurs pour éviter les ruptures de stock et les surstocks.

AI applications Optimization business efficiency retail

RESEARCHDEV.to AI·21/04/2026

Multi-Objective Deep Reinforcement Learning

Ce contenu explore le domaine de l'apprentissage profond par renforcement multi-objectif. Il aborde probablement les techniques permettant d'entraîner des agents d'IA à optimiser simultanément plusieurs critères de performance.

Optimization deep learning reinforcement learning

ARTICLEDEV.to AI·25/04/2026

"AI-Powered HVAC Contractor Lead Scoring & Dispatch Optimization Suite with Low-

Ce rapport explique comment la notation des leads et l'optimisation des expéditions basées sur l'IA peuvent améliorer l'efficacité et les taux de conversion pour les entrepreneurs en CVC. Il décrit un plan de mise en œuvre à faible barrière, étayé par des données et des tendances de l'industrie.

lead management HVAC Optimization AI

RESEARCHarXiv CS.AI·06/04/2026

Interpretable Deep Reinforcement Learning for Element-level Bridge Life-cycle Optimization

O artigo aborda a aplicação de Aprendizado por Reforço Profundo interpretável para a otimização do ciclo de vida de pontes em nível de elemento. Ele busca oferecer transparência e eficiência na gestão da infraestrutura.

Deep Reinforcement Learning Optimization interpretable AI Civil Engineering

RESEARCHarXiv CS.LG·06/04/2026

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

neural networks Optimization browsers Overhead

RESEARCHarXiv CS.AI·30/04/2026

Hierarchical Multi-Persona Induction from User Behavioral Logs: Learning Evidence-Grounded and Truthful Personas

Cet article propose un cadre hiérarchique pour induire des personas d'utilisateurs multiples et fondées sur des preuves à partir de journaux comportementaux, en optimisant la qualité des personas. La méthode utilise une extension groupwise de DPO et génère des personas plus cohérentes, véridiques et améliore la prédiction des interactions futures.

Optimization LLMs machine learning persona generation

RESEARCHarXiv CS.AI·06/05/2026

Accelerating battery research with an AI interface between FINALES and Kadi4Mat

Cette étude optimise les protocoles de formation des piles bouton au sodium pour l'efficacité de la durée et les performances en fin de vie, en utilisant une interface IA entre FINALES et Kadi4Mat. Le cadre utilise l'optimisation bayésienne par lots multi-objectifs pour guider la sélection des expériences, visant à accélérer la découverte et à réduire la consommation de ressources.

Materials Science Optimization machine learning AI

ARTICLETogether AI Blog·24/04/2026

Accelerate RL rollouts by up to 50% with distribution-aware speculative decoding

Le DAS (décodage spéculatif conscient de la distribution) résout le goulot d'étranglement du déploiement en post-entraînement RL. Il accélère les déploiements jusqu'à 50 % sans dégradation de la qualité de la récompense.

Optimization AI acceleration reinforcement learning machine learning

ARTICLETogether AI Blog·il y a 8j

Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets

Together a réalisé une inférence efficace pour MiniMax-M3, débloquant un contexte de 1M de tokens et la multimodalité. Ceci a été accompli grâce à l'attention sparse KV-block-major, au décodage MSA paginé, à l'optimisation du score d'index et à une passerelle multimodale basée sur Rust.

System design Optimization Multimodality large language models

RESEARCHarXiv CS.AI·14/04/2026

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Cet article présente de nouveaux modèles d'Analyse d'Écart Virtuel (VGA) basés sur la programmation linéaire pour l'évaluation multicritère, s'attaquant aux problèmes d'évaluations subjectives et de diversité des données. La méthode en deux étapes évalue les alternatives de manière pessimiste en utilisant des données cardinales et ordinales, permettant un classement efficace et l'élimination des options défavorables dans les systèmes d'aide à la décision.

Optimization Decision Making Linear Programming Multi-Criteria Analysis

RESEARCHarXiv CS.AI·22/04/2026

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Cet article s'attaque au problème de la plus longue sous-séquence commune à écarts variables (VGLCS), une généralisation du LCS avec des contraintes d'écart flexibles, pertinente pour la comparaison de séquences moléculaires et l'analyse de séries temporelles. Il propose un cadre de recherche basé sur des graphes d'état avec une stratégie de recherche par faisceau itérative pour gérer l'explosion combinatoire et trouver des solutions de haute qualité.

search algorithms Optimization Algorithms Time Series Analysis