← heapsort-ai

Optimization

134 items

RESEARCHarXiv CS.AI·hace 1d

Accelerated Fourier SAT (AFSAT): Fully Realising a GPU-based Symmetric Pseudo-Boolean SAT Solver

Accelerated Fourier SAT (AFSAT) es un solucionador acelerado por GPU para la satisfacibilidad pseudo-booleana que emplea búsqueda local continua. Mejora sustancialmente la estabilidad numérica, el rendimiento en tiempo de ejecución y la eficiencia de la memoria sobre su prueba de concepto, utilizando JAX para el procesamiento paralelo y abordando las limitaciones de memoria/punto flotante.

60
RESEARCHarXiv CS.AI·hace 1d

A Study of Parallel Continuous Local Search

El estudio investiga la Búsqueda Local Continua Paralela (CLS) como enfoque para problemas de satisfacibilidad booleana con restricciones pseudo-booleanas simétricas. Presenta hallazgos empíricos que sugieren que las restricciones redundantes pueden inhibir la convergencia, que la CLS promete en entornos híbridos y que la búsqueda local converge rápidamente a una distribución estable de calidad de solución.

60
NEWS↑ trendingReddit r/LocalLLaMA·18/4/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare lanzó Unweight, un sistema de compresión sin pérdidas que reduce el tamaño de los LLM entre un 15 y un 22% sin sacrificar la precisión de la salida. La herramienta, que ahorra aproximadamente 3 GB de VRAM en GPUs Nvidia H100 para Llama-3.1-8B, ha sido de código abierto en GitHub con planes de extender la compresión.

44
ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

why llama.cpp can’t combine speculative decode methods?

Un usuario investiga por qué los métodos de decodificación especulativa como MTP y N-gram no pueden combinarse simultáneamente en llama.cpp, señalando que N-gram ofrece mejoras significativas para la codificación. Busca entender si es una limitación fundamental o de implementación, descubriendo que otros ya han planteado la misma pregunta.

43
RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Un estudiante de IA de pregrado en investigación identificó por qué la fusión de ventajas de múltiples escalas de tiempo en arquitecturas PPO Actor-Critic provoca el colapso de la política. Esto se debe a la manipulación del objetivo sustituto y a la preferencia por horizontes a corto plazo debido a una menor incertidumbre temporal.

42
DOC↑ trendingReddit r/MachineLearning·hace 27d

Built Support Vector Machine(SVM) from scratch in Rust [P]

Un desarrollador construyó un clasificador Support Vector Machine (SVM) desde cero en Rust, incorporando optimización SMO, núcleos lineal y RBF, y ajuste de hiperparámetros mediante búsqueda en cuadrícula. El SVM fue probado en conjuntos de datos de Autenticación de Billetes y Cáncer de Mama, logrando altas puntuaciones de precisión.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·7/5/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant es una técnica novedosa que emplea cuantización de rotación por pares para mejorar significativamente la eficiencia de la inferencia de Modelos de Lenguaje Grandes (LLM). Este método se dirige específicamente a los LLM de razonamiento, permitiendo una implementación más económica y rápida al reducir los requisitos computacionales y de memoria.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
ARTICLE↑ trendingReddit r/LocalLLaMA·30/4/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Esta actualización detalla la ejecución de Qwen3.6-27B en una sola RTX 3090, logrando un contexto de ~218K y llamadas de herramientas estables a 50-66 TPS. Se resolvió un problema crítico de memoria con salidas de herramientas largas al corregir una desviación de anclaje en un parche Genesis (PN12) para vLLM.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

Gemma 4 Vision

El presupuesto de visión predeterminado de Gemma 4 es a menudo demasiado bajo para un reconocimiento de detalles eficaz, lo que provoca un bajo rendimiento en OCR. Los usuarios pueden mejorar significativamente su visión configurando los parámetros de `llama.cpp` como `--image-min-tokens` y `--image-max-tokens` a valores más altos, como 560 y 2240.

41
ARTICLEDEV.to AI·22/4/2026

Efficiency at Scale: Scaling, Scheduling, and Measuring Databricks SQL

Este artículo se centra en optimizar la arquitectura de Databricks SQL para la sostenibilidad y la eficiencia de costos, destacando la elección del tamaño de almacén correcto y la automatización de las cargas de trabajo. Ofrece pautas para diversas necesidades, desde consultas ligeras hasta entornos de producción de alta concurrencia, y sugiere usar Auto-Stop para evitar costos de cómputo inactivo.

37
DOC↑ trendingReddit r/MachineLearning·6/5/2026

Exploring Black‑Box Optimization [R]

Este proyecto personal en sus primeras etapas explora algoritmos de optimización de caja negra, invitando a la comunidad a ofrecer comentarios y sugerencias. Los interesados pueden consultar la descripción general completa y explorar el repositorio para obtener más detalles del proyecto.

36
ARTICLEDEV.to AI·18/4/2026

The Attention Economy Inside Your Agent

Este contenido introduce el concepto de un presupuesto de atención finito para los agentes de IA, más allá de la ventana de contexto de tokens, destacando cómo deciden qué merece su tiempo de procesamiento. Argumenta que los agentes, al igual que los humanos, desarrollan atajos heurísticos y satisfacen, asignando la atención de forma asimétrica, lo que determina su éxito o fracaso en la producción.

36