← heapsort-ai

Optimization

134 items

RESEARCHarXiv CS.AI·il y a 8j

Structure-Induced Information for Rerooting Levin Tree Search

Cet article présente de nouvelles conceptions de "rerooter" pour l'algorithme $\sqrt{\text{LTS}}$, résolvant les limitations d'évolutivité de la génération explicite de sous-objectifs dans la recherche arborescente de politiques basée sur des sous-objectifs. Ces conceptions décomposent implicitement les problèmes, permettant une allocation évolutive de l'effort de recherche.

27
RESEARCHarXiv CS.CL·il y a 12j

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec propose un cadre pour l'évolution en temps réel des modèles de brouillon dans le décodage spéculatif pour les Grands Modèles de Langage, s'attaquant au goulot d'étranglement des grandes tailles de vocabulaire. Il utilise une adaptation dynamique du vocabulaire et des paramètres, employant un mécanisme conscient du contexte et une stratégie d'alignement en ligne légère pour améliorer les taux d'acceptation et minimiser les écarts de distribution.

27
RESEARCHarXiv CS.CL·il y a 13j

In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective

Cet article de recherche explore la Génération Augmentée par Récupération (RAG) sous l'angle de l'optimisation en contexte. Il démontre qu'une seule couche d'auto-attention linéaire peut exécuter une étape de descente de gradient sur un objectif RAG linéarisé unifié, révélant un régime exact où la prédiction augmentée par récupération et l'optimisation en contexte coïncident.

27
ARTICLEDEV.to AI·il y a 16j

MCPs Are Eating Your Context Window (And What To Do About It)

Cet article examine comment les serveurs du protocole de contexte de modèle (MCP) consomment la fenêtre de contexte d'un modèle d'IA en préchargeant les schémas d'outils, entraînant une forte consommation de jetons. Il suggère que les "compétences" peuvent résoudre ce problème en chargeant paresseusement les outils, optimisant ainsi les coûts et l'efficacité.

27
ARTICLEDEV.to AI·il y a 22j

We tried routing between 4 different LLMs automatically – here's what we learned

Une expérience a exploré le routage de requêtes IA vers différents LLM (DeepSeek-V4 Pro, Kimi 2.6, MiniMax 2.7, Qwen3 235B) en fonction de la tâche. Il a été constaté qu'aucun modèle unique n'était le meilleur pour toutes les tâches, et des règles YAML simples se sont avérées efficaces, tandis que le routage complexe et la prédiction des coûts ont échoué.

27
ARTICLEDEV.to AI·27/04/2026

Context Compression in .NET

Cette astuce rapide explique comment implémenter la compression de contexte en .NET pour les systèmes RAG, palliant l'absence d'un équivalent direct à des outils comme LLMLingua. Elle suggère d'utiliser un modèle de travail plus petit et moins cher pour prétraiter la documentation récupérée, n'extrayant que les faits essentiels afin de réduire les coûts et la latence avec les modèles d'IA premium.

27
RESEARCHarXiv CS.LG·06/04/2026

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

27
RESEARCHarXiv CS.AI·30/04/2026

Hierarchical Multi-Persona Induction from User Behavioral Logs: Learning Evidence-Grounded and Truthful Personas

Cet article propose un cadre hiérarchique pour induire des personas d'utilisateurs multiples et fondées sur des preuves à partir de journaux comportementaux, en optimisant la qualité des personas. La méthode utilise une extension groupwise de DPO et génère des personas plus cohérentes, véridiques et améliore la prédiction des interactions futures.

27
RESEARCHarXiv CS.AI·06/05/2026

Accelerating battery research with an AI interface between FINALES and Kadi4Mat

Cette étude optimise les protocoles de formation des piles bouton au sodium pour l'efficacité de la durée et les performances en fin de vie, en utilisant une interface IA entre FINALES et Kadi4Mat. Le cadre utilise l'optimisation bayésienne par lots multi-objectifs pour guider la sélection des expériences, visant à accélérer la découverte et à réduire la consommation de ressources.

27
ARTICLETogether AI Blog·il y a 8j

Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets

Together a réalisé une inférence efficace pour MiniMax-M3, débloquant un contexte de 1M de tokens et la multimodalité. Ceci a été accompli grâce à l'attention sparse KV-block-major, au décodage MSA paginé, à l'optimisation du score d'index et à une passerelle multimodale basée sur Rust.

27
RESEARCHarXiv CS.AI·14/04/2026

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Cet article présente de nouveaux modèles d'Analyse d'Écart Virtuel (VGA) basés sur la programmation linéaire pour l'évaluation multicritère, s'attaquant aux problèmes d'évaluations subjectives et de diversité des données. La méthode en deux étapes évalue les alternatives de manière pessimiste en utilisant des données cardinales et ordinales, permettant un classement efficace et l'élimination des options défavorables dans les systèmes d'aide à la décision.

27
RESEARCHarXiv CS.AI·22/04/2026

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Cet article s'attaque au problème de la plus longue sous-séquence commune à écarts variables (VGLCS), une généralisation du LCS avec des contraintes d'écart flexibles, pertinente pour la comparaison de séquences moléculaires et l'analyse de séries temporelles. Il propose un cadre de recherche basé sur des graphes d'état avec une stratégie de recherche par faisceau itérative pour gérer l'explosion combinatoire et trouver des solutions de haute qualité.

26