Optimization

134 items

RESEARCHarXiv CS.AI·hace 1d

Accelerated Fourier SAT (AFSAT): Fully Realising a GPU-based Symmetric Pseudo-Boolean SAT Solver

Accelerated Fourier SAT (AFSAT) es un solucionador acelerado por GPU para la satisfacibilidad pseudo-booleana que emplea búsqueda local continua. Mejora sustancialmente la estabilidad numérica, el rendimiento en tiempo de ejecución y la eficiencia de la memoria sobre su prueba de concepto, utilizando JAX para el procesamiento paralelo y abordando las limitaciones de memoria/punto flotante.

SAT solver Computational logic GPU computing Optimization

RESEARCHarXiv CS.AI·hace 1d

A Study of Parallel Continuous Local Search

El estudio investiga la Búsqueda Local Continua Paralela (CLS) como enfoque para problemas de satisfacibilidad booleana con restricciones pseudo-booleanas simétricas. Presenta hallazgos empíricos que sugieren que las restricciones redundantes pueden inhibir la convergencia, que la CLS promete en entornos híbridos y que la búsqueda local converge rápidamente a una distribución estable de calidad de solución.

Optimization Boolean Satisfiability Local Search Parallel Computing

ARTICLEDEV.to AI·23/4/2026

Serving Infrastructure — Deep Dive + Problem: Softmax Function

La infraestructura de servicio es fundamental para implementar y gestionar Grandes Modelos de Lenguaje (LLMs) en entornos de producción, asegurando la entrega eficiente y fiable de predicciones. Conecta el desarrollo del modelo con su aplicación real, impactando directamente el rendimiento, la escalabilidad y la mantenibilidad.

Scalability Optimization LLMs deployment

RESEARCHarXiv CS.AI·hace 19h

Improving Multimodal Reasoning via Worst Dimension Optimization

El razonamiento multimodal requiere mantener la integridad en diversas restricciones, como la fundamentación visual y la coherencia lógica. Los Modelos de Recompensa de Proceso actuales a menudo ocultan fallas en dimensiones individuales al ponderar los factores por igual, comprometiendo el proceso de razonamiento general.

Optimization multimodal AI machine learning AI Reasoning

CASEAWS Machine Learning Blog·hace 1d

Better decisions at scale: How mathematical optimization delivers where intuition fails

Esta publicación presenta la optimización matemática, explica cómo encaja en el panorama más amplio de la IA y muestra casos de éxito reales de asociaciones con clientes. La optimización matemática ofrece resultados concretos donde la intuición falla, permitiendo mejores decisiones a escala.

mathematical optimization Optimization Decision Making Innovation

ARTICLEDEV.to AI·23/4/2026

Stop Using sleep() in Your Agent Loops: Event-Driven AI Agent Scheduling

El artículo critica el uso común de `sleep()` en bucles de agentes de IA, señalando sus costos en términos de presupuesto de API, alta latencia y enmascaramiento de fallos. Propone la programación basada en eventos como una alternativa superior para optimizar costos y rendimiento a escala.

Optimization performance developer tools scheduling

NEWS↑ trendingReddit r/LocalLLaMA·18/4/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare lanzó Unweight, un sistema de compresión sin pérdidas que reduce el tamaño de los LLM entre un 15 y un 22% sin sacrificar la precisión de la salida. La herramienta, que ahorra aproximadamente 3 GB de VRAM en GPUs Nvidia H100 para Llama-3.1-8B, ha sido de código abierto en GitHub con planes de extender la compresión.

Open Source Optimization GPU compression

ARTICLE↑ trendingHacker News (AI)·hace 6d

Lean Inference: Lean Manufacturing Principles Applied to AI

Este artículo explora la aplicación de los principios de Lean Manufacturing a la inferencia de IA, con el objetivo de optimizar la eficiencia y reducir el desperdicio en los flujos de trabajo de inteligencia artificial. Detalla cómo las metodologías lean pueden utilizarse para mejorar el rendimiento y la sostenibilidad de los sistemas de IA.

MLOps Optimization Lean Manufacturing efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

why llama.cpp can’t combine speculative decode methods?

Un usuario investiga por qué los métodos de decodificación especulativa como MTP y N-gram no pueden combinarse simultáneamente en llama.cpp, señalando que N-gram ofrece mejoras significativas para la codificación. Busca entender si es una limitación fundamental o de implementación, descubriendo que otros ya han planteado la misma pregunta.

Optimization LLMs llama.cpp Qwen3.6

NEWS↑ trendingReddit r/LocalLLaMA·27/4/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash presenta un puerto GGUF de decodificación especulativa DFlash para Qwen3.6-27B, logrando casi el doble de rendimiento en una única RTX 3090. Este stack C++/CUDA independiente, disponible como proyecto de código abierto con licencia MIT, mejora significativamente el rendimiento de los LLM en hardware de consumo.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Un estudiante de IA de pregrado en investigación identificó por qué la fusión de ventajas de múltiples escalas de tiempo en arquitecturas PPO Actor-Critic provoca el colapso de la política. Esto se debe a la manipulación del objetivo sustituto y a la preferencia por horizontes a corto plazo debido a una menor incertidumbre temporal.

Optimization Actor-Critic reinforcement learning PPO

DOC↑ trendingReddit r/MachineLearning·hace 27d

Built Support Vector Machine(SVM) from scratch in Rust [P]

Un desarrollador construyó un clasificador Support Vector Machine (SVM) desde cero en Rust, incorporando optimización SMO, núcleos lineal y RBF, y ajuste de hiperparámetros mediante búsqueda en cuadrícula. El SVM fue probado en conjuntos de datos de Autenticación de Billetes y Cáncer de Mama, logrando altas puntuaciones de precisión.

support-vector-machine Optimization machine learning Hyperparameters

RESEARCH↑ trendingReddit r/LocalLLaMA·7/5/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant es una técnica novedosa que emplea cuantización de rotación por pares para mejorar significativamente la eficiencia de la inferencia de Modelos de Lenguaje Grandes (LLM). Este método se dirige específicamente a los LLM de razonamiento, permitiendo una implementación más económica y rápida al reducir los requisitos computacionales y de memoria.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ARTICLE↑ trendingReddit r/LocalLLaMA·30/4/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Esta actualización detalla la ejecución de Qwen3.6-27B en una sola RTX 3090, logrando un contexto de ~218K y llamadas de herramientas estables a 50-66 TPS. Se resolvió un problema crítico de memoria con salidas de herramientas largas al corregir una desviación de anclaje en un parche Genesis (PN12) para vLLM.

Optimization hardware performance vLLM

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

El título describe una optimización impresionante para el modelo Qwen3.6–27B, logrando 85 TPS y 125K de contexto con capacidades de visión en una sola RTX 3090. Esto es un logro técnico significativo para la implementación eficiente de LLMs.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

Gemma 4 Vision

El presupuesto de visión predeterminado de Gemma 4 es a menudo demasiado bajo para un reconocimiento de detalles eficaz, lo que provoca un bajo rendimiento en OCR. Los usuarios pueden mejorar significativamente su visión configurando los parámetros de `llama.cpp` como `--image-min-tokens` y `--image-max-tokens` a valores más altos, como 560 y 2240.

Optimization Configuration computer vision Gemma

ARTICLEDEV.to AI·22/4/2026

Efficiency at Scale: Scaling, Scheduling, and Measuring Databricks SQL

Este artículo se centra en optimizar la arquitectura de Databricks SQL para la sostenibilidad y la eficiencia de costos, destacando la elección del tamaño de almacén correcto y la automatización de las cargas de trabajo. Ofrece pautas para diversas necesidades, desde consultas ligeras hasta entornos de producción de alta concurrencia, y sugiere usar Auto-Stop para evitar costos de cómputo inactivo.

cost management Optimization Databricks cloud computing

DOC↑ trendingReddit r/MachineLearning·6/5/2026

Exploring Black‑Box Optimization [R]

Este proyecto personal en sus primeras etapas explora algoritmos de optimización de caja negra, invitando a la comunidad a ofrecer comentarios y sugerencias. Los interesados pueden consultar la descripción general completa y explorar el repositorio para obtener más detalles del proyecto.

Optimization machine learning Algorithms

ARTICLEDEV.to AI·18/4/2026

The Attention Economy Inside Your Agent

Este contenido introduce el concepto de un presupuesto de atención finito para los agentes de IA, más allá de la ventana de contexto de tokens, destacando cómo deciden qué merece su tiempo de procesamiento. Argumenta que los agentes, al igual que los humanos, desarrollan atajos heurísticos y satisfacen, asignando la atención de forma asimétrica, lo que determina su éxito o fracaso en la producción.

Heuristics Optimization AI design AI agents

ARTICLEDEV.to AI·hace 18d

How AI Allocation Engines Optimize Multi-Partner Delivery Networks

Los motores de asignación de IA optimizan las redes de entrega de múltiples socios, analizando variables en tiempo real como la disponibilidad de los repartidores, el tráfico y la demanda. Distribuyen dinámicamente las entregas, mejorando la eficiencia y la escalabilidad en las operaciones logísticas.

logistics Optimization delivery networks AI