inference

28 items

RESEARCHarXiv CS.LG·24/4/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse es un nuevo sistema de inferencia diseñado para plataformas solo de CPU, que permite la ejecución de modelos de lenguaje grandes sin multiplicaciones. Utiliza pesos ternarios ({-1, 0, +1}) para reemplazar las multiplicaciones de punto flotante con adiciones y sustracciones condicionales, reduciendo significativamente los cuellos de botella de ancho de banda de memoria y ofreciendo una compresión de peso de hasta 16x.

inference CPU optimization quantization performance

RESEARCHarXiv CS.LG·hace 17d

Harnesses for Inference-Time Alignment over Execution Trajectories

Esta investigación examina la ingeniería de arneses como una técnica de tiempo de inferencia para agentes de modelos de lenguaje grandes (LLM), con el objetivo de mejorar el rendimiento a largo plazo mediante la descomposición de tareas y la ejecución guiada. Cuantifica cómo los elementos de diseño, como la granularidad del flujo de trabajo y la orientación, afectan el rendimiento, revelando modos de falla comunes como la sobredescomposición y la ejecución alucinada.

inference LLMs machine learning Task Decomposition

RESEARCHDEV.to AI·hace 11d

Sleep Phase Cuts Transformer Costs by Consolidating Memory

Un nuevo artículo propone una fase de "sueño" para modelos de lenguaje, consolidando el contexto en memoria de tamaño fijo. Esto reduce el costo de inferencia cuadrático y mejora el rendimiento en tareas de horizonte largo.

language models inference Transformer memory

DOCDEV.to AI·28/4/2026

How to Deploy Phi-3.5 Mini with vLLM on a $5/Month DigitalOcean Droplet: Lightweight Production Inference Under $60/Year

Este artículo guía a los usuarios en el despliegue del LLM Phi-3.5 Mini de Microsoft con vLLM en un Droplet de DigitalOcean de $5/mes. La configuración ofrece inferencia de producción ligera por menos de $60 anuales, buscando reducir drásticamente los costos en comparación con las costosas APIs de LLM comerciales.

inference cloud computing Cost Optimization LLM deployment

DOCTogether AI Blog·8/5/2026

Deploy and inference any model from HuggingFace

Esta sesión enseña cómo desplegar cualquier modelo de Hugging Face usando Goose y el Dedicated Container Inference de Together. Su objetivo es simplificar la complejidad de la configuración, permitiendo que los modelos se ejecuten rápidamente en un entorno de GPU de producción.

inference learning GPU AI deployment

ARTICLEML Mastery·hace 10d

Serving Multiple Users at Once: How Continuous Batching Keeps LLM Inference Efficient

Este artículo explora cómo el procesamiento por lotes continuo mejora la eficiencia de la inferencia de LLMs, abordando los problemas del procesamiento por lotes estático. Detalla la programación dinámica y el procesamiento por lotes irregular para procesar múltiples solicitudes simultáneamente.

inference deep learning efficiency Batching

Serving Multiple Users at Once: How Continuous Batching Keeps LLM Inference Efficient

NEWSTogether AI Blog·17/3/2026

Mamba-3

Se presenta Mamba-3, un nuevo Modelo de Espacio de Estados (SSM) de código abierto diseñado para inferencia. Es más rápido que los Transformers en la decodificación y más potente que Mamba-2.

Open Source inference Mamba-3 SSM

NEWSDEV.to AI·18/4/2026

AI Hub Phase 8: Adding DeepInfra and Liquid AI — Now at 33 Providers

La Fase 8 del AI Hub anuncia la adición de DeepInfra y Liquid AI, aumentando su número de proveedores a 33. DeepInfra se destaca por su rentabilidad y endpoint compatible con OpenAI, mientras que Liquid AI introduce una arquitectura novedosa más allá de los transformadores para tareas de contexto largo.

AI platforms DeepInfra inference LLMs