← heapsort-ai

inference

28 items

RESEARCHarXiv CS.LG·24/4/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse es un nuevo sistema de inferencia diseñado para plataformas solo de CPU, que permite la ejecución de modelos de lenguaje grandes sin multiplicaciones. Utiliza pesos ternarios ({-1, 0, +1}) para reemplazar las multiplicaciones de punto flotante con adiciones y sustracciones condicionales, reduciendo significativamente los cuellos de botella de ancho de banda de memoria y ofreciendo una compresión de peso de hasta 16x.

27
RESEARCHarXiv CS.LG·hace 17d

Harnesses for Inference-Time Alignment over Execution Trajectories

Esta investigación examina la ingeniería de arneses como una técnica de tiempo de inferencia para agentes de modelos de lenguaje grandes (LLM), con el objetivo de mejorar el rendimiento a largo plazo mediante la descomposición de tareas y la ejecución guiada. Cuantifica cómo los elementos de diseño, como la granularidad del flujo de trabajo y la orientación, afectan el rendimiento, revelando modos de falla comunes como la sobredescomposición y la ejecución alucinada.

27
DOCDEV.to AI·28/4/2026

How to Deploy Phi-3.5 Mini with vLLM on a $5/Month DigitalOcean Droplet: Lightweight Production Inference Under $60/Year

Este artículo guía a los usuarios en el despliegue del LLM Phi-3.5 Mini de Microsoft con vLLM en un Droplet de DigitalOcean de $5/mes. La configuración ofrece inferencia de producción ligera por menos de $60 anuales, buscando reducir drásticamente los costos en comparación con las costosas APIs de LLM comerciales.

27
NEWSTogether AI Blog·17/3/2026

Mamba-3

Se presenta Mamba-3, un nuevo Modelo de Espacio de Estados (SSM) de código abierto diseñado para inferencia. Es más rápido que los Transformers en la decodificación y más potente que Mamba-2.

27