inference

28 items

RESEARCHarXiv CS.LG·hace 1d

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Esta investigación propone "program-of-layers (PoLar)" para LLMs, que permite omitir o repetir dinámicamente capas preentrenadas durante la inferencia para lograr una precisión igual o mejor con rutas de ejecución más cortas. Se propone una red de predicción ligera para generar estos programas personalizados, mostrando un rendimiento mejorado en pruebas de razonamiento matemático.

neural networks mathematical reasoning inference LLMs

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.

Pruning inference Transformer quantization

ARTICLE↑ trendingReddit r/MachineLearning·22/4/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) es una nueva arquitectura de IA que responde preguntas eliminando progresivamente imposibilidades en lugar de generar posibilidades, operando independientemente de los LLM. Logra un 88% de precisión, es 95.5 veces más rápido y 100 veces más pequeño que TinyLlama 1.1B, demostrando una eficiencia computacional significativa.

AI architecture inference Computational Efficiency sustainable AI

ARTICLE↑ trendingHacker News (AI)·hace 11d

DeepSeek Slashes AI Costs to Cents

DeepSeek ha reducido drásticamente los costos de inferencia de IA, bajándolos a solo unos centavos. Este desarrollo hace que la tecnología de IA sea más accesible y económicamente viable para una gama más amplia de aplicaciones.

DeepSeek AI costs inference cost reduction

RESEARCH↑ trendingReddit r/LocalLLaMA·16/4/2026

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

El contenido detalla el rendimiento del modelo Qwen 3.6 35B A3B, alcanzando 187 tokens por segundo en una GPU RTX 5090 de 32GB. Destaca el soporte para un tamaño de contexto de 120K, utilizando cuantificación Q5 K S y una temperatura de 0.1.

inference AI hardware benchmark performance

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

NEWS↑ trendingReddit r/LocalLLaMA·27/4/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. ha presentado una arquitectura innovadora, la tarjeta HTX301, que permite la inferencia de LLMs de 700B parámetros en una sola tarjeta PCIe con 384GB de memoria y bajo consumo (~240W). Este enfoque descarga la decodificación a la HTX301 mientras las GPUs manejan el prellenado, haciendo posible la inferencia de LLMs ultragrandes localmente sin necesidad de VRAM masiva en GPUs.

inference LLMs AI hardware

CASE↑ trendingReddit r/MachineLearning·27/4/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Un usuario notó que la cuantificación INT8 en su modelo de aprendizaje profundo resultó en una mejor precisión de inferencia que FP16, lo cual fue inesperado. Busca explicaciones para el rendimiento superior de INT8 sobre FP16.

inference ONNX deep learning quantization

RESEARCHarXiv CS.CL·hace 5d

Expert-Aware Refusal Steering

Este artículo extiende la dirección de rechazo a los Modelos de Lenguaje Grandes de Mezcla de Expertos (LLMs MoE), descubriendo que el rendimiento de la dirección no se ve inhibido por la arquitectura MoE. Propone métodos de dirección de rechazo conscientes de los expertos, mostrando que el comportamiento de rechazo puede ser dirigido eficazmente basándose en la salida de un solo experto.

MoE models inference refusal steering AI alignment

NEWSDEV.to AI·22/4/2026

Google Launches AI Chips for Training and Inference

Google ha lanzado una nueva línea de chips de IA, denominados "Triton X", para desafiar el dominio de Nvidia, prometiendo una reducción del 40% en los costos de entrenamiento y una latencia de inferencia un 25% menor. Este lanzamiento marca un cambio sísmico en la industria del hardware de IA, intensificando la competencia.

inference AI hardware Training Google

ARTICLEDEV.to AI·15/4/2026

I Ran 163 Benchmarks Across 10 LLMs So You Don't Have To. Here's What I Found

Este artículo subraya la práctica común de los equipos de pagar en exceso por la inferencia de LLMs debido a la falta de evaluación comparativa adecuada, eligiendo modelos basados en la popularidad en lugar de la eficiencia de costos. El autor, utilizando una herramienta llamada CostGuard, realizó 163 pruebas comparativas en 15 modelos, revelando diferencias de precio sorprendentes de hasta 200 veces entre modelos como Gemini 2.5 Flash y GPT-5.

AI models inference Benchmarking Cost Optimization

RESEARCHarXiv CS.LG·20/4/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Esta investigación revela que el caché KV en la inferencia autorregresiva de transformadores, bajo precisión FP16 estándar, provoca una divergencia sistemática en las secuencias de tokens decodificadas debido a diferentes órdenes de acumulación de punto flotante. Se observó una tasa de divergencia del 100% en modelos como LLaMA-2-7B y Mistral-7B, con el caché-ON a menudo resultando en mayor precisión.

AI models inference LLMs numerical precision

ARTICLEDEV.to AI·hace 12d

The Inference Layer

Tres startups de infraestructura de inferencia de IA están recaudando colectivamente más de 30 mil millones de dólares, mostrando un rápido crecimiento en un sector que apenas existía hace 18 meses. Empresas como Baseten, Fireworks AI y Modal Labs están alcanzando valoraciones multimillonarias a pesar de los recientes hitos de ingresos.

inference startups enterprise computing Valuation

ARTICLEDEV.to AI·3/5/2026

I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cards

Un desarrollador creó un motor de inferencia CUDA personalizado para ejecutar con éxito el gran modelo de lenguaje Qwen3.5-27B en tarjetas gráficas de minería de bajo costo. Este enfoque innovador demuestra una optimización de hardware significativa, haciendo que los modelos de IA potentes sean más accesibles en hardware de consumo asequible.

CUDA Optimization inference hardware

ARTICLEDEV.to AI·hace 26d

{"title": "How I Cut My LLM Inference Costs by 40% While Handling 5x More Reques

Este artículo detalla cómo un equipo redujo significativamente sus costos de inferencia de LLM en un 40%, mientras manejaba cinco veces más solicitudes. La solución implicó reconstruir su arquitectura con una capa proxy ligera para normalizar las solicitudes a un formato compatible con OpenAI, permitiendo el uso flexible de varios proveedores de alto rendimiento.

Optimization inference cost reduction Architecture

DOCDEV.to AI·hace 7d

How to Deploy Mistral 7B with vLLM + KServe on a $10/Month DigitalOcean GPU Droplet: Production-Ready Inference at 1/95th Claude Cost

Esta guía detalla el despliegue de Mistral 7B con vLLM y KServe en un Droplet GPU de DigitalOcean de $10/mes, permitiendo inferencia lista para producción a un costo drásticamente reducido. Esta solución ofrece un ahorro del 95% en comparación con las API de IA comerciales, asegurando alta concurrencia y baja latencia.

inference deployment learning Cost Optimization

ARTICLEDEV.to AI·21/4/2026

Multi-Model LLM Routing: Why 76% of Your Inference Shouldn't Touch GPT-4

Este artículo aboga por el enrutamiento inteligente de solicitudes LLM para optimizar costos y rendimiento en producción. Sugiere dirigir el 76% de las solicitudes a modelos más baratos y rápidos, reservando modelos de frontera como GPT-4 para el 24% de tareas complejas que realmente los requieren.

inference model routing Cost Optimization AI agents

ARTICLEDEV.to AI·24/4/2026

How to Deploy Llama 3.2 70B with TensorRT-LLM on a $48/Month DigitalOcean GPU Droplet: 3x Faster Inference Than vLLM

Este contenido explica cómo desplegar Llama 3.2 70B con TensorRT-LLM en un Droplet de GPU de DigitalOcean de $48/mes, logrando una inferencia 3 veces más rápida que vLLM. Destaca ahorros de costos significativos y mejoras de rendimiento para chatbots de producción en comparación con los costos de la API de OpenAI.

inference LLMs self-hosting Performance optimization

RESEARCHDEV.to AI·8/5/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Este artículo presenta la "Ronda 2 del Enfrentamiento de Modelos", introduciendo nuevos modelos como Gemma 4 de Google y Kimi K2 de Moonshot AI, y reevaluando modelos anteriores con configuraciones corregidas. Los benchmarks actualizados revelaron cambios significativos en la clasificación, abordando problemas como límites de tokens e interpretación de comandos de la ronda inicial.

AI models inference LLMs Benchmarking

RESEARCHarXiv CS.LG·9/4/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

Diffusion Models search algorithms language models inference

RESEARCHarXiv CS.AI·7/5/2026

Parallel Prefix Verification for Speculative Generation

PARSE (PArallel pRefix Speculative Engine) es un nuevo marco de generación especulativa que acelera la inferencia de modelos de lenguaje grandes (LLM). Lo logra paralelizando la verificación de prefijos a nivel semántico, superando las limitaciones existentes al evaluar la corrección en múltiples prefijos en una sola pasada.

inference AI acceleration parallelization Speculative Decoding