inference

28 items

RESEARCHarXiv CS.LG·vor 1T

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Diese Forschung stellt "Program-of-Layers (PoLar)" für LLMs vor, das dynamisches Überspringen oder Wiederholen von vortrainierten Schichten während der Inferenz ermöglicht, um gleiche oder bessere Genauigkeit bei kürzeren Ausführungspfaden zu erzielen. Ein leichtgewichtiges Vorhersagenetzwerk lernt, diese maßgeschneiderten Programme zu generieren und zeigt verbesserte Leistung bei mathematischen Reasoning-Benchmarks.

neural networks mathematical reasoning inference LLMs

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.

Pruning inference Transformer quantization

ARTICLE↑ trendingReddit r/MachineLearning·4/22/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) ist eine neuartige KI-Architektur, die Fragen durch schrittweises Eliminieren von Unmöglichkeiten beantwortet, anstatt Möglichkeiten zu generieren, und unabhängig von LLMs arbeitet. Es erreicht 88% Genauigkeit, ist 95,5-mal schneller und 100-mal kleiner als TinyLlama 1.1B, was eine erhebliche Recheneffizienz demonstriert.

AI architecture inference Computational Efficiency sustainable AI

ARTICLE↑ trendingHacker News (AI)·vor 11T

DeepSeek Slashes AI Costs to Cents

DeepSeek hat die Kosten für die KI-Inferenz drastisch auf wenige Cents gesenkt. Diese Entwicklung macht die KI-Technologie für ein breiteres Spektrum von Anwendungen zugänglicher und wirtschaftlich tragfähiger.

DeepSeek AI costs inference cost reduction

RESEARCH↑ trendingReddit r/LocalLLaMA·4/16/2026

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

Das Qwen 3.6 35B A3B Modell erreicht 187 Tokens pro Sekunde auf einer RTX 5090 32GB GPU. Es unterstützt eine Kontextgröße von 120K, nutzt Q5 K S Quantisierung und eine Temperatur von 0,1.

inference AI hardware benchmark performance

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

NEWS↑ trendingReddit r/LocalLLaMA·4/27/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. hat eine bahnbrechende Architektur, die HTX301-Karte, vorgestellt, die die Inferenz von 700B-Parameter-LLMs auf einer einzigen PCIe-Karte mit 384 GB Speicher und geringem Verbrauch (~240W) ermöglicht. Dieser Ansatz lagert die Dekodierung auf die HTX301 aus, während GPUs das Prefill übernehmen, was eine lokale Inferenz von ultragroßen LLMs ohne massiven GPU-VRAM ermöglicht.

inference LLMs AI hardware

CASE↑ trendingReddit r/MachineLearning·4/27/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Ein Benutzer stellte fest, dass die INT8-Quantisierung in seinem Deep-Learning-Modell eine bessere Inferenzgenauigkeit als FP16 lieferte, was unerwartet war. Er sucht nach Erklärungen für die überlegene Leistung von INT8 gegenüber FP16.

inference ONNX deep learning quantization

RESEARCHarXiv CS.CL·vor 5T

Expert-Aware Refusal Steering

Diese Arbeit erweitert die Verweigerungslenkung auf Mixture-of-Experts (MoE) große Sprachmodelle und stellt fest, dass die Lenkleistung durch die MoE-Architektur nicht beeinträchtigt wird. Sie schlägt expertenbewusste Verweigerungslenkungsmethoden vor, die Routing-Muster von Experten nutzen und zeigt, dass das Verweigerungsverhalten effektiv basierend auf der Ausgabe eines einzelnen Experten gesteuert werden kann.

MoE models inference refusal steering AI alignment

NEWSDEV.to AI·4/22/2026

Google Launches AI Chips for Training and Inference

Google hat eine neue Reihe von KI-Chips namens „Triton X“ vorgestellt, um Nvidias Dominanz herauszufordern, die eine Kostensenkung von 40 % für Trainingsaufgaben und eine 25 % geringere Inferenzlatenz verspricht. Dies stellt eine seismische Verschiebung auf dem KI-Hardwaremarkt dar und verschärft den Wettbewerb.

inference AI hardware Training Google

ARTICLEDEV.to AI·4/15/2026

I Ran 163 Benchmarks Across 10 LLMs So You Don't Have To. Here's What I Found

Dieser Artikel beleuchtet die gängige Praxis, dass Teams aufgrund mangelhafter Benchmarking-Verfahren zu viel für LLM-Inferenz bezahlen, oft indem sie Modelle nach Beliebtheit statt Kosteneffizienz auswählen. Der Autor führte mithilfe eines Tools namens CostGuard 163 Benchmarks über 15 Modelle durch und entdeckte dabei überraschende Preisunterschiede von bis zu 200x zwischen Modellen wie Gemini 2.5 Flash und GPT-5.

AI models inference Benchmarking Cost Optimization

RESEARCHarXiv CS.LG·4/20/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Diese Forschung zeigt, dass KV-Caching in der autoregressiven Transformer-Inferenz bei Standard-FP16-Genauigkeit eine systematische Divergenz in dekodierten Token-Sequenzen verursacht, bedingt durch unterschiedliche Gleitkomma-Akkumulationsreihenfolgen. Bei Modellen wie LLaMA-2-7B und Mistral-7B wurde eine 100%ige Token-Divergenzrate beobachtet, wobei Cache-ON oft zu höherer Genauigkeit führte.

AI models inference LLMs numerical precision

ARTICLEDEV.to AI·vor 12T

The Inference Layer

Drei Startups im Bereich der KI-Inferenzinfrastruktur sammeln zusammen über 30 Milliarden Dollar ein und zeigen damit ein rasantes Wachstum in einem Sektor, der vor 18 Monaten kaum existierte. Unternehmen wie Baseten, Fireworks AI und Modal Labs erreichen trotz jüngster Umsatzmeilensteine Bewertungen von mehreren Milliarden Dollar.

inference startups enterprise computing Valuation

ARTICLEDEV.to AI·5/3/2026

I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cards

Ein Entwickler hat eine benutzerdefinierte CUDA-Inferenz-Engine erstellt, um das große Sprachmodell Qwen3.5-27B erfolgreich auf kostengünstigen Mining-Grafikkarten zu betreiben. Dieser innovative Ansatz zeigt eine erhebliche Hardware-Optimierung, wodurch leistungsstarke KI-Modelle auf erschwinglicher Consumer-Hardware zugänglicher werden.

CUDA Optimization inference hardware

ARTICLEDEV.to AI·vor 26T

{"title": "How I Cut My LLM Inference Costs by 40% While Handling 5x More Reques

Dieser Artikel beschreibt, wie ein Team seine LLM-Inferenzkosten um 40 % senkte, während es die fünffache Anzahl von Anfragen verarbeitete. Die Lösung umfasste den Umbau ihrer Architektur mit einer schlanken Proxy-Schicht, um Anfragen in ein OpenAI-kompatibles Format zu normalisieren, was die flexible Nutzung verschiedener Hochleistungsanbieter ermöglichte.

Optimization inference cost reduction Architecture

DOCDEV.to AI·vor 7T

How to Deploy Mistral 7B with vLLM + KServe on a $10/Month DigitalOcean GPU Droplet: Production-Ready Inference at 1/95th Claude Cost

Diese Anleitung beschreibt die Bereitstellung von Mistral 7B mit vLLM und KServe auf einem 10 $/Monat DigitalOcean GPU Droplet, um produktionsreife Inferenz zu drastisch reduzierten Kosten zu ermöglichen. Diese Lösung bietet eine Ersparnis von 95 % im Vergleich zu kommerziellen KI-APIs und gewährleistet hohe Parallelität und geringe Latenz.

inference deployment learning Cost Optimization

ARTICLEDEV.to AI·4/21/2026

Multi-Model LLM Routing: Why 76% of Your Inference Shouldn't Touch GPT-4

Dieser Artikel plädiert für intelligentes LLM-Routing, um Produktionskosten und -leistung zu optimieren. Er schlägt vor, 76 % der Anfragen an günstigere, schnellere Modelle zu leiten und Top-Modelle wie GPT-4 für die 24 % komplexer Aufgaben zu reservieren, die sie wirklich benötigen.

inference model routing Cost Optimization AI agents

ARTICLEDEV.to AI·4/24/2026

How to Deploy Llama 3.2 70B with TensorRT-LLM on a $48/Month DigitalOcean GPU Droplet: 3x Faster Inference Than vLLM

Dieser Inhalt beschreibt, wie Llama 3.2 70B mit TensorRT-LLM auf einem $48/Monat DigitalOcean GPU Droplet bereitgestellt werden kann, was eine dreifach schnellere Inferenz als vLLM ermöglicht. Er hebt erhebliche Kosteneinsparungen und Leistungsverbesserungen für Produktions-Chatbots im Vergleich zu OpenAI API-Kosten hervor.

inference LLMs self-hosting Performance optimization

RESEARCHDEV.to AI·5/8/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Dieser Artikel präsentiert die "Modell-Showdown Runde 2", die neue Modelle wie Googles Gemma 4 und Moonshot AIs Kimi K2 einführt und frühere Modelle mit korrigierten Konfigurationen neu bewertet. Die aktualisierten Benchmarks zeigten signifikante Änderungen in der Bestenliste und behandelten Probleme wie Token-Limits und Befehlsinterpretation aus der ersten Runde.

AI models inference LLMs Benchmarking

RESEARCHarXiv CS.LG·4/9/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

Diffusion Models search algorithms language models inference

RESEARCHarXiv CS.AI·5/7/2026

Parallel Prefix Verification for Speculative Generation

PARSE (PArallel pRefix Speculative Engine) ist ein neues Framework für spekulative Generierung, das die Inferenz großer Sprachmodelle (LLMs) beschleunigt. Dies gelingt durch die Parallelisierung der Präfixverifizierung auf semantischer Ebene, wodurch bestehende Einschränkungen durch die Bewertung der Korrektheit über mehrere Präfixe in einem einzigen Durchlauf überwunden werden.

inference AI acceleration parallelization Speculative Decoding