AI inference

28 items

ARTICLE↑ trendingHacker News (AI)·vor 6T

Lean Inference: Lean Manufacturing Principles Applied to AI

Dieser Artikel untersucht die Anwendung von Lean Manufacturing-Prinzipien auf die KI-Inferenz, um die Effizienz zu optimieren und Verschwendung in Workflows der künstlichen Intelligenz zu reduzieren. Er beschreibt, wie schlanke Methoden zur Verbesserung der Leistung und Nachhaltigkeit von KI-Systemen eingesetzt werden können.

MLOps Optimization Lean Manufacturing efficiency

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.

LLM optimization llama.cpp GGUF Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·5/7/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant ist eine neuartige Technik, die die paarweise Rotationsquantisierung einsetzt, um die Effizienz der Inferenz von Großen Sprachmodellen (LLM) erheblich zu verbessern. Diese Methode zielt speziell auf Reasoning-LLMs ab und ermöglicht einen kostengünstigeren und schnelleren Einsatz durch Reduzierung der Rechen- und Speicheranforderungen.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

NEWS↑ trendingReddit r/LocalLLaMA·4/19/2026

llama.cpp speculative checkpointing was merged

Die "speculative checkpointing"-Funktion wurde in llama.cpp integriert und bietet potenzielle Geschwindigkeitsvorteile. Während einige Prompts, wie beim Codieren mit optimierten Parametern, eine Beschleunigung von 0% bis 50% erfahren können, profitieren andere möglicherweise nicht aufgrund geringer Entwurfsakzeptanzraten.

Open Source llama.cpp speculative-checkpointing AI inference

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 28T

I got a real transformer language model running locally on a stock Game Boy Color!

Ein Transformer-Sprachmodell (TinyStories-260K) wurde erfolgreich lokal auf einem handelsüblichen Game Boy Color ausgeführt, unter Verwendung von INT8-Gewichten und Festkomma-Arithmetik. Diese beeindruckende technische Leistung umfasste ein benutzerdefiniertes ROM und die Tokenisierung auf dem Gerät, trotz extrem langsamer Leistung und unsinniger Ausgabe.

Hardware Acceleration Edge AI quantization AI inference

I got a real transformer language model running locally on a stock Game Boy Color!

ARTICLEDEV.to AI·vor 15T

The Quiet AI War Inside Your Browser

Google hat die Prompt API in Chrome 148 eingeführt, die trotz starken Widerstands von Mozilla, Apple und dem W3C lokale KI-Inferenz mit Gemini Nano direkt auf den Geräten der Nutzer ermöglicht. Diese Funktion bietet KI ohne Serverkosten, Latenz oder das Verlassen von Daten vom Gerät und sichert Googles Sieg in diesem

Google Chrome Web Standards Gemini Nano AI inference

DOCDEV.to AI·vor 22T

Building llama.cpp from source on a Dell Precision T5820 with an RTX 3090 Ti (after seven power cycles)

Dieser Beitrag beschreibt die Einrichtung eines Dell Precision T5820 mit einer RTX 3090 Ti für KI-Inferenz mithilfe von llama.cpp zum Ausführen von Qwen3.6-27B. Der Autor teilt das Bau-Rezept, die Fehlerbehebung bei PCIe und Tricks für lange Kontexte und betont Geduld als entscheidende Lösung.

Homelab GPU Troubleshooting llama.cpp

NEWSAWS Machine Learning Blog·vor 5T

NVIDIA Nemotron 3 Ultra now available on Amazon SageMaker JumpStart

NVIDIA Nemotron 3 Ultra ist jetzt auf Amazon SageMaker JumpStart verfügbar. Diese Bereitstellung ermöglicht 5-mal schnellere Inferenzen und 30 % geringere Kosten für KI-Workloads.

Nemotron 3 Ultra machine learning NVIDIA AI inference

DOCDEV.to AI·vor 23T

How to Fast Ai Inference with itapi.ai: A Complete Guide [May 2026]

Dieser Leitfaden beschreibt, wie itapi.ai die schnelle KI-Inferenz vereinfacht und eine robuste, entwicklerfreundliche API bietet, die die Integrationszeit verkürzt. Er bietet eine Schritt-für-Schritt-Anleitung für den Einstieg, einschließlich der Erstellung eines kostenlosen Kontos und der Installation des offiziellen SDK.

development tutorial API SDK

DOCDEV.to AI·vor 24T

A Developer's Guide to AI Inference Costs in 2026

Dieser praktische Leitfaden unterstützt Entwickler bei der Schätzung der KI-Inferenzkosten, indem er Faktoren wie API-Token-Kosten und die entscheidende Cache-Trefferquote behandelt. Für selbst gehostete Modelle betont er die Bedeutung der GPU-Auslastungsraten zur Kostenoptimierung. Das Verständnis dieser Variablen ist für die finanzielle Nachhaltigkeit bei der Entwicklung von KI-Funktionen unerlässlich.

Optimization cloud computing costs AI inference

DOCHugging Face Blog·vor 29T

Building Blocks for Foundation Model Training and Inference on AWS

Der Inhalt behandelt die wesentlichen Bausteine für das Training und die Inferenz von Fundamentmodellen auf der AWS-Plattform. Er untersucht die notwendigen Komponenten zur Implementierung und zum Betrieb dieser Modelle.

AI training machine learning Foundation Models AWS

ARTICLEDEV.to AI·vor 7T

Request-Based vs Token Pricing for LLM Inference in 2026

Der Inhalt diskutiert die mögliche Entwicklung der Preismodelle für die LLM-Inferenz bis 2026, weg von der Token-basierten hin zur Anfrage-basierten Abrechnung. Das aktuelle Token-basierte Modell macht die Kosten bei großen Kontextfenstern unvorhersehbar, während ein anfragebasiertes Modell Kostensicherheit bietet.

cost management LLM pricing AI inference API billing

ARTICLEDEV.to AI·4/19/2026

Cloudflare Workers AI: Run Edge Inference Without a GPU Server

Cloudflare Workers AI ermöglicht die Ausführung von KI-Inferenz am Edge ohne GPU-Server, bietet über 50 Modelle und Abrechnung pro Inferenz-Einheit. Dieser Dienst vereinfacht die Entwicklung KI-nativer Apps durch globale Latenz auf Cloudflares GPU-Netzwerk, ohne Kaltstarts oder Serververwaltung.

cloud computing machine learning Serverless AI inference

DOCDEV.to AI·vor 18T

在老旧 AMD RX 580 (8GB) 上通过原生 Vulkan 运行 Flux Schnell (12B) + LLM — 完整架构指南 [2026]

Dieser technische Leitfaden zeigt, wie LLMs und Stable Diffusion Modelle im Jahr 2026 auf einer alten AMD RX 580 GPU ausgeführt werden können, indem KI-Softwarebeschränkungen umgangen werden. Er beschreibt die Verwendung von nativem Vulkan mit der ggml-Engine für effiziente Inferenz und beweist die Machbarkeit älterer Hardware.

Vulkan hardware ggml AI inference

RESEARCHarXiv CS.AI·5/4/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena wird als kontinuierlicher Benchmark eingeführt, der die KI-Inferenz auf Endpunktgranularität entlang von fünf Kernachsen misst. Es fasst Ausgabegeschwindigkeit, Zeit bis zum ersten Token, Preis, effektiven Kontext und Qualität, zusammen mit Energieabschätzungen, in Verbundwerte wie Joule und Dollar pro korrekter Antwort sowie Endpunkt-Fidelity zusammen.

AI models Energy Efficiency performance evaluation Benchmarking

RESEARCHarXiv CS.LG·vor 20T

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI ist ein innovativer Router, der kalibrierte Unsicherheit nutzt, um die Kosten von LLM-Kaskaden zu optimieren, indem er einfache Anfragen an kleinere Modelle und schwierige an größere Modelle sendet. Er reduziert die Inferenzkosten in Produktionsumgebungen um 31% bei gleichbleibender Genauigkeit, indem er die Modellkonfidenz kalibriert.

LLM routing uncertainty calibration model cascades Cost Optimization

RESEARCHarXiv CS.CL·vor 12T

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec stellt ein Framework für die Echtzeitentwicklung von Entwurfsmodellen in der spekulativen Dekodierung für große Sprachmodelle vor, das das Problem großer Vokabulargrößen angeht. Es verwendet dynamische Vokabular- und Parameteranpassung mittels eines kontextsensitiven Mechanismus und einer leichten Online-Abgleichstrategie zur Verbesserung der Akzeptanzraten und Minimierung von Verteilungsunterschieden.

Optimization machine learning large language models AI inference

ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

llama.cpp is the linux of llm

Der Inhalt vergleicht llama.cpp mit Linux für Große Sprachmodelle (LLMs), was auf eine grundlegende Open-Source-Lösung hindeutet. Es wird die Frage aufgeworfen, ob diese Analogie für das LLM-Ökosystem zutreffend ist.

Open Source AI inference LLM

RESEARCHarXiv CS.LG·4/30/2026

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

Diese Arbeit überdenkt die KV-Cache-Eviction für LLMs mittels eines informationstheoretischen Ziels, das aus dem Informationsengpassprinzip abgeleitet wurde. Sie stellt CapKV vor, eine neue kapazitätsbewusste Methode, die Informationen bewahrt und bestehende heuristische Strategien übertrifft.

Memory Optimization machine learning large language models AI inference

ARTICLETogether AI Blog·5/8/2026

Serving DeepSeek-V4: why million-token context is an inference systems problem

DeepSeek-V4 macht den Millionen-Token-Kontext zu einem Problem für Inferenzsysteme. Together AI erforscht die Inferenzarbeit hinter V4 auf NVIDIA HGX B200, einschließlich komprimierter KV-Layouts und Präfix-Caching für lange Kontext-Workloads.

long-context models DeepSeek V4 NVIDIA AI inference