← heapsort-ai

inference

28 items

RESEARCHarXiv CS.LG·vor 1T

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Diese Forschung stellt "Program-of-Layers (PoLar)" für LLMs vor, das dynamisches Überspringen oder Wiederholen von vortrainierten Schichten während der Inferenz ermöglicht, um gleiche oder bessere Genauigkeit bei kürzeren Ausführungspfaden zu erzielen. Ein leichtgewichtiges Vorhersagenetzwerk lernt, diese maßgeschneiderten Programme zu generieren und zeigt verbesserte Leistung bei mathematischen Reasoning-Benchmarks.

60
ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.

50
ARTICLE↑ trendingReddit r/MachineLearning·4/22/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) ist eine neuartige KI-Architektur, die Fragen durch schrittweises Eliminieren von Unmöglichkeiten beantwortet, anstatt Möglichkeiten zu generieren, und unabhängig von LLMs arbeitet. Es erreicht 88% Genauigkeit, ist 95,5-mal schneller und 100-mal kleiner als TinyLlama 1.1B, was eine erhebliche Recheneffizienz demonstriert.

49
NEWS↑ trendingReddit r/LocalLLaMA·4/27/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. hat eine bahnbrechende Architektur, die HTX301-Karte, vorgestellt, die die Inferenz von 700B-Parameter-LLMs auf einer einzigen PCIe-Karte mit 384 GB Speicher und geringem Verbrauch (~240W) ermöglicht. Dieser Ansatz lagert die Dekodierung auf die HTX301 aus, während GPUs das Prefill übernehmen, was eine lokale Inferenz von ultragroßen LLMs ohne massiven GPU-VRAM ermöglicht.

42
RESEARCHarXiv CS.CL·vor 5T

Expert-Aware Refusal Steering

Diese Arbeit erweitert die Verweigerungslenkung auf Mixture-of-Experts (MoE) große Sprachmodelle und stellt fest, dass die Lenkleistung durch die MoE-Architektur nicht beeinträchtigt wird. Sie schlägt expertenbewusste Verweigerungslenkungsmethoden vor, die Routing-Muster von Experten nutzen und zeigt, dass das Verweigerungsverhalten effektiv basierend auf der Ausgabe eines einzelnen Experten gesteuert werden kann.

31
NEWSDEV.to AI·4/22/2026

Google Launches AI Chips for Training and Inference

Google hat eine neue Reihe von KI-Chips namens „Triton X“ vorgestellt, um Nvidias Dominanz herauszufordern, die eine Kostensenkung von 40 % für Trainingsaufgaben und eine 25 % geringere Inferenzlatenz verspricht. Dies stellt eine seismische Verschiebung auf dem KI-Hardwaremarkt dar und verschärft den Wettbewerb.

28
ARTICLEDEV.to AI·4/15/2026

I Ran 163 Benchmarks Across 10 LLMs So You Don't Have To. Here's What I Found

Dieser Artikel beleuchtet die gängige Praxis, dass Teams aufgrund mangelhafter Benchmarking-Verfahren zu viel für LLM-Inferenz bezahlen, oft indem sie Modelle nach Beliebtheit statt Kosteneffizienz auswählen. Der Autor führte mithilfe eines Tools namens CostGuard 163 Benchmarks über 15 Modelle durch und entdeckte dabei überraschende Preisunterschiede von bis zu 200x zwischen Modellen wie Gemini 2.5 Flash und GPT-5.

27
RESEARCHarXiv CS.LG·4/20/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Diese Forschung zeigt, dass KV-Caching in der autoregressiven Transformer-Inferenz bei Standard-FP16-Genauigkeit eine systematische Divergenz in dekodierten Token-Sequenzen verursacht, bedingt durch unterschiedliche Gleitkomma-Akkumulationsreihenfolgen. Bei Modellen wie LLaMA-2-7B und Mistral-7B wurde eine 100%ige Token-Divergenzrate beobachtet, wobei Cache-ON oft zu höherer Genauigkeit führte.

27
ARTICLEDEV.to AI·vor 12T

The Inference Layer

Drei Startups im Bereich der KI-Inferenzinfrastruktur sammeln zusammen über 30 Milliarden Dollar ein und zeigen damit ein rasantes Wachstum in einem Sektor, der vor 18 Monaten kaum existierte. Unternehmen wie Baseten, Fireworks AI und Modal Labs erreichen trotz jüngster Umsatzmeilensteine Bewertungen von mehreren Milliarden Dollar.

27
ARTICLEDEV.to AI·vor 26T

{"title": "How I Cut My LLM Inference Costs by 40% While Handling 5x More Reques

Dieser Artikel beschreibt, wie ein Team seine LLM-Inferenzkosten um 40 % senkte, während es die fünffache Anzahl von Anfragen verarbeitete. Die Lösung umfasste den Umbau ihrer Architektur mit einer schlanken Proxy-Schicht, um Anfragen in ein OpenAI-kompatibles Format zu normalisieren, was die flexible Nutzung verschiedener Hochleistungsanbieter ermöglichte.

27
DOCDEV.to AI·vor 7T

How to Deploy Mistral 7B with vLLM + KServe on a $10/Month DigitalOcean GPU Droplet: Production-Ready Inference at 1/95th Claude Cost

Diese Anleitung beschreibt die Bereitstellung von Mistral 7B mit vLLM und KServe auf einem 10 $/Monat DigitalOcean GPU Droplet, um produktionsreife Inferenz zu drastisch reduzierten Kosten zu ermöglichen. Diese Lösung bietet eine Ersparnis von 95 % im Vergleich zu kommerziellen KI-APIs und gewährleistet hohe Parallelität und geringe Latenz.

27
ARTICLEDEV.to AI·4/24/2026

How to Deploy Llama 3.2 70B with TensorRT-LLM on a $48/Month DigitalOcean GPU Droplet: 3x Faster Inference Than vLLM

Dieser Inhalt beschreibt, wie Llama 3.2 70B mit TensorRT-LLM auf einem $48/Monat DigitalOcean GPU Droplet bereitgestellt werden kann, was eine dreifach schnellere Inferenz als vLLM ermöglicht. Er hebt erhebliche Kosteneinsparungen und Leistungsverbesserungen für Produktions-Chatbots im Vergleich zu OpenAI API-Kosten hervor.

27
RESEARCHDEV.to AI·5/8/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Dieser Artikel präsentiert die "Modell-Showdown Runde 2", die neue Modelle wie Googles Gemma 4 und Moonshot AIs Kimi K2 einführt und frühere Modelle mit korrigierten Konfigurationen neu bewertet. Die aktualisierten Benchmarks zeigten signifikante Änderungen in der Bestenliste und behandelten Probleme wie Token-Limits und Befehlsinterpretation aus der ersten Runde.

27
RESEARCHarXiv CS.LG·4/9/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

27
RESEARCHarXiv CS.AI·5/7/2026

Parallel Prefix Verification for Speculative Generation

PARSE (PArallel pRefix Speculative Engine) ist ein neues Framework für spekulative Generierung, das die Inferenz großer Sprachmodelle (LLMs) beschleunigt. Dies gelingt durch die Parallelisierung der Präfixverifizierung auf semantischer Ebene, wodurch bestehende Einschränkungen durch die Bewertung der Korrektheit über mehrere Präfixe in einem einzigen Durchlauf überwunden werden.

27