Optimization

134 items

RESEARCHarXiv CS.AI·hace 8d

Structure-Induced Information for Rerooting Levin Tree Search

Este artículo introduce nuevos diseños de "rerooter" para el algoritmo $\sqrt{\text{LTS}}$, abordando las limitaciones de escalabilidad de la generación explícita de subobjetivos en la búsqueda de árboles de políticas basada en subobjetivos. Estos diseños descomponen implícitamente los problemas, permitiendo una asignación escalable del esfuerzo de búsqueda.

policy search Optimization tree search machine learning

RESEARCHarXiv CS.CL·hace 12d

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec introduce un marco para la evolución en tiempo real de modelos preliminares en la decodificación especulativa para Grandes Modelos de Lenguaje, abordando el cuello de botella de los vocabularios grandes. Utiliza adaptación dinámica de vocabulario y parámetros, empleando un mecanismo sensible al contexto y una estrategia ligera de alineación en línea para mejorar las tasas de aceptación y minimizar las brechas distribucionales.

Optimization machine learning large language models AI inference

RESEARCHarXiv CS.CL·hace 13d

In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective

Este trabajo de investigación explora la Generación Aumentada por Recuperación (RAG) desde la perspectiva de la optimización en contexto. Demuestra que una sola capa de autoatención lineal puede ejecutar un paso de descenso de gradiente en un objetivo RAG linealizado unificado, revelando un régimen exacto donde la predicción aumentada por recuperación y la optimización en contexto coinciden.

Optimization RAG machine learning NLP

RESEARCHDEV.to AI·14/4/2026

Graph Partitioning using Quantum Annealing on the D-Wave System

Este contenido explora la aplicación del recocido cuántico, específicamente en el sistema D-Wave, para resolver problemas de partición de grafos. Profundiza en el aprovechamiento de la computación cuántica para desafíos complejos de optimización combinatoria.

Quantum Computing Optimization Graph Partitioning Quantum Annealing

ARTICLEDEV.to AI·hace 28d

Training an LLM in Swift: Understanding Faster Matrix Multiplication

Este artículo explora la optimización de la multiplicación de matrices, una operación fundamental en tareas de IA, para acelerar el entrenamiento de LLMs usando Swift. El objetivo es impulsar los cálculos de gigaflops a teraflops, haciendo que la comprensión del lenguaje y otras tareas de IA sean mucho más rápidas y eficientes.

Optimization Matrix Multiplication Swift AI

DOCDEV.to AI·24/4/2026

Derivatives: Understanding Change

Este contenido explica cómo las derivadas son cruciales en la IA para optimizar el rendimiento de los modelos, midiendo el impacto de los ajustes de peso en la pérdida de predicción. Describe cómo guiar al modelo para que aprenda moviendo sus pesos en la dirección que reduce la pérdida.

neural networks Gradient Descent Optimization machine learning

ARTICLEDEV.to AI·hace 16d

MCPs Are Eating Your Context Window (And What To Do About It)

Este artículo analiza cómo los servidores del Protocolo de Contexto del Modelo (MCP) consumen la ventana de contexto de los modelos de IA al cargar de antemano esquemas de herramientas, lo que genera un alto uso de tokens. Propone que las "habilidades" pueden resolver este problema cargando las herramientas de forma perezosa, optimizando así el costo y la eficiencia.

Optimization API Token usage AI agents

ARTICLEDEV.to AI·hace 22d

We tried routing between 4 different LLMs automatically – here's what we learned

Un experimento exploró el enrutamiento de consultas de IA a diferentes LLMs (DeepSeek-V4 Pro, Kimi 2.6, MiniMax 2.7, Qwen3 235B) según la tarea. Se descubrió que ningún modelo único sobresalía en todas las tareas, y las reglas YAML simples resultaron efectivas, mientras que el enrutamiento complejo y la predicción de costos fallaron.

AI models Optimization LLMs routing

ARTICLEDEV.to AI·27/4/2026

Context Compression in .NET

Este consejo rápido explica cómo implementar la compresión de contexto en .NET para sistemas RAG, abordando la falta de un equivalente directo a herramientas como LLMLingua. Propone usar un modelo de trabajo más pequeño y económico para preprocesar la documentación recuperada, extrayendo solo hechos esenciales para reducir costos y latencia con modelos de IA premium.

Optimization prompt engineering RAG AI

ARTICLEDEV.to AI·24/4/2026

"AI-powered inventory management for small retail businesses: How to reduce stoc

Este artículo explora cómo la gestión de inventario impulsada por IA puede revolucionar las pequeñas empresas minoristas. Detalla los beneficios de pronosticar la demanda con precisión utilizando múltiples factores para evitar la falta y el exceso de existencias.

AI applications Optimization business efficiency retail

RESEARCHDEV.to AI·21/4/2026

Multi-Objective Deep Reinforcement Learning

Este contenido explora el campo del Aprendizaje Profundo por Refuerzo Multiobjetivo. Probablemente profundiza en técnicas para entrenar agentes de IA para optimizar múltiples criterios de rendimiento simultáneamente.

Optimization deep learning reinforcement learning

ARTICLEDEV.to AI·25/4/2026

"AI-Powered HVAC Contractor Lead Scoring & Dispatch Optimization Suite with Low-

Este informe detalla cómo la puntuación de leads y la optimización de despachos impulsadas por IA pueden mejorar la eficiencia y las tasas de conversión para contratistas de HVAC. Presenta un plan de implementación de baja barrera, respaldado por datos y tendencias de la industria.

lead management HVAC Optimization AI

RESEARCHarXiv CS.AI·6/4/2026

Interpretable Deep Reinforcement Learning for Element-level Bridge Life-cycle Optimization

O artigo aborda a aplicação de Aprendizado por Reforço Profundo interpretável para a otimização do ciclo de vida de pontes em nível de elemento. Ele busca oferecer transparência e eficiência na gestão da infraestrutura.

Deep Reinforcement Learning Optimization interpretable AI Civil Engineering

RESEARCHarXiv CS.LG·6/4/2026

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

neural networks Optimization browsers Overhead

RESEARCHarXiv CS.AI·30/4/2026

Hierarchical Multi-Persona Induction from User Behavioral Logs: Learning Evidence-Grounded and Truthful Personas

Este artículo propone un marco jerárquico para inducir múltiples personas de usuario basadas en evidencia a partir de registros de comportamiento, optimizando la calidad de la persona. El método utiliza una extensión de DPO y demuestra personas más coherentes y veraces, mejorando también la predicción de interacciones futuras.

Optimization LLMs machine learning persona generation

RESEARCHarXiv CS.AI·6/5/2026

Accelerating battery research with an AI interface between FINALES and Kadi4Mat

Este estudio optimiza los protocolos de formación de celdas de iones de sodio para la eficiencia de duración y el rendimiento al final de su vida útil, utilizando una interfaz de IA entre FINALES y Kadi4Mat. El marco emplea la optimización bayesiana multi-objetivo para guiar la selección de experimentos, con el objetivo de acelerar el descubrimiento y reducir el consumo de recursos.

Materials Science Optimization machine learning AI

ARTICLETogether AI Blog·24/4/2026

Accelerate RL rollouts by up to 50% with distribution-aware speculative decoding

DAS (decodificación especulativa consciente de la distribución) soluciona el cuello de botella de rollout en el post-entrenamiento de RL. Acelera los rollouts hasta en un 50% sin degradación en la calidad de la recompensa.

Optimization AI acceleration reinforcement learning machine learning

ARTICLETogether AI Blog·hace 8d

Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets

Together logró una inferencia eficiente para MiniMax-M3, desbloqueando un contexto de 1M de tokens y multimodalidad. Esto se consiguió mediante atención dispersa KV-block-major, decodificación paged MSA, puntuación de índice optimizada y una puerta de enlace multimodal basada en Rust.

System design Optimization Multimodality large language models

RESEARCHarXiv CS.AI·14/4/2026

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Este artículo presenta nuevos modelos de Análisis de Brechas Virtuales (VGA) basados en programación lineal para la evaluación multicriterio, abordando problemas de evaluaciones subjetivas y diversidad de datos. El método de dos pasos evalúa alternativas de manera pesimista utilizando datos cardinales y ordinales, permitiendo una clasificación eficiente y la eliminación de opciones desfavorables en sistemas de apoyo a la decisión.

Optimization Decision Making Linear Programming Multi-Criteria Analysis

RESEARCHarXiv CS.AI·22/4/2026

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Este artículo trata el problema de la Subsecuencia Común Más Larga con Brechas Variables (VGLCS), una generalización del LCS con restricciones de brechas flexibles, relevante para la comparación de secuencias moleculares y el análisis de series temporales. Propone un marco de búsqueda basado en grafos de estado con una estrategia iterativa de búsqueda por haces para controlar la explosión combinatoria y hallar soluciones de alta calidad.

search algorithms Optimization Algorithms Time Series Analysis