← heapsort-ai

inference

28 items

RESEARCHarXiv CS.LG·hace 1d

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Esta investigación propone "program-of-layers (PoLar)" para LLMs, que permite omitir o repetir dinámicamente capas preentrenadas durante la inferencia para lograr una precisión igual o mejor con rutas de ejecución más cortas. Se propone una red de predicción ligera para generar estos programas personalizados, mostrando un rendimiento mejorado en pruebas de razonamiento matemático.

60
ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.

50
ARTICLE↑ trendingReddit r/MachineLearning·22/4/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) es una nueva arquitectura de IA que responde preguntas eliminando progresivamente imposibilidades en lugar de generar posibilidades, operando independientemente de los LLM. Logra un 88% de precisión, es 95.5 veces más rápido y 100 veces más pequeño que TinyLlama 1.1B, demostrando una eficiencia computacional significativa.

49
NEWS↑ trendingReddit r/LocalLLaMA·27/4/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. ha presentado una arquitectura innovadora, la tarjeta HTX301, que permite la inferencia de LLMs de 700B parámetros en una sola tarjeta PCIe con 384GB de memoria y bajo consumo (~240W). Este enfoque descarga la decodificación a la HTX301 mientras las GPUs manejan el prellenado, haciendo posible la inferencia de LLMs ultragrandes localmente sin necesidad de VRAM masiva en GPUs.

42
RESEARCHarXiv CS.CL·hace 5d

Expert-Aware Refusal Steering

Este artículo extiende la dirección de rechazo a los Modelos de Lenguaje Grandes de Mezcla de Expertos (LLMs MoE), descubriendo que el rendimiento de la dirección no se ve inhibido por la arquitectura MoE. Propone métodos de dirección de rechazo conscientes de los expertos, mostrando que el comportamiento de rechazo puede ser dirigido eficazmente basándose en la salida de un solo experto.

31
NEWSDEV.to AI·22/4/2026

Google Launches AI Chips for Training and Inference

Google ha lanzado una nueva línea de chips de IA, denominados "Triton X", para desafiar el dominio de Nvidia, prometiendo una reducción del 40% en los costos de entrenamiento y una latencia de inferencia un 25% menor. Este lanzamiento marca un cambio sísmico en la industria del hardware de IA, intensificando la competencia.

28
ARTICLEDEV.to AI·15/4/2026

I Ran 163 Benchmarks Across 10 LLMs So You Don't Have To. Here's What I Found

Este artículo subraya la práctica común de los equipos de pagar en exceso por la inferencia de LLMs debido a la falta de evaluación comparativa adecuada, eligiendo modelos basados en la popularidad en lugar de la eficiencia de costos. El autor, utilizando una herramienta llamada CostGuard, realizó 163 pruebas comparativas en 15 modelos, revelando diferencias de precio sorprendentes de hasta 200 veces entre modelos como Gemini 2.5 Flash y GPT-5.

27
RESEARCHarXiv CS.LG·20/4/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Esta investigación revela que el caché KV en la inferencia autorregresiva de transformadores, bajo precisión FP16 estándar, provoca una divergencia sistemática en las secuencias de tokens decodificadas debido a diferentes órdenes de acumulación de punto flotante. Se observó una tasa de divergencia del 100% en modelos como LLaMA-2-7B y Mistral-7B, con el caché-ON a menudo resultando en mayor precisión.

27
ARTICLEDEV.to AI·hace 12d

The Inference Layer

Tres startups de infraestructura de inferencia de IA están recaudando colectivamente más de 30 mil millones de dólares, mostrando un rápido crecimiento en un sector que apenas existía hace 18 meses. Empresas como Baseten, Fireworks AI y Modal Labs están alcanzando valoraciones multimillonarias a pesar de los recientes hitos de ingresos.

27
ARTICLEDEV.to AI·hace 26d

{"title": "How I Cut My LLM Inference Costs by 40% While Handling 5x More Reques

Este artículo detalla cómo un equipo redujo significativamente sus costos de inferencia de LLM en un 40%, mientras manejaba cinco veces más solicitudes. La solución implicó reconstruir su arquitectura con una capa proxy ligera para normalizar las solicitudes a un formato compatible con OpenAI, permitiendo el uso flexible de varios proveedores de alto rendimiento.

27
DOCDEV.to AI·hace 7d

How to Deploy Mistral 7B with vLLM + KServe on a $10/Month DigitalOcean GPU Droplet: Production-Ready Inference at 1/95th Claude Cost

Esta guía detalla el despliegue de Mistral 7B con vLLM y KServe en un Droplet GPU de DigitalOcean de $10/mes, permitiendo inferencia lista para producción a un costo drásticamente reducido. Esta solución ofrece un ahorro del 95% en comparación con las API de IA comerciales, asegurando alta concurrencia y baja latencia.

27
ARTICLEDEV.to AI·24/4/2026

How to Deploy Llama 3.2 70B with TensorRT-LLM on a $48/Month DigitalOcean GPU Droplet: 3x Faster Inference Than vLLM

Este contenido explica cómo desplegar Llama 3.2 70B con TensorRT-LLM en un Droplet de GPU de DigitalOcean de $48/mes, logrando una inferencia 3 veces más rápida que vLLM. Destaca ahorros de costos significativos y mejoras de rendimiento para chatbots de producción en comparación con los costos de la API de OpenAI.

27
RESEARCHDEV.to AI·8/5/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Este artículo presenta la "Ronda 2 del Enfrentamiento de Modelos", introduciendo nuevos modelos como Gemma 4 de Google y Kimi K2 de Moonshot AI, y reevaluando modelos anteriores con configuraciones corregidas. Los benchmarks actualizados revelaron cambios significativos en la clasificación, abordando problemas como límites de tokens e interpretación de comandos de la ronda inicial.

27
RESEARCHarXiv CS.LG·9/4/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

27