← heapsort-ai

AI inference

28 items

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.

43
RESEARCH↑ trendingReddit r/LocalLLaMA·5/7/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant ist eine neuartige Technik, die die paarweise Rotationsquantisierung einsetzt, um die Effizienz der Inferenz von Großen Sprachmodellen (LLM) erheblich zu verbessern. Diese Methode zielt speziell auf Reasoning-LLMs ab und ermöglicht einen kostengünstigeren und schnelleren Einsatz durch Reduzierung der Rechen- und Speicheranforderungen.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 28T

I got a real transformer language model running locally on a stock Game Boy Color!

Ein Transformer-Sprachmodell (TinyStories-260K) wurde erfolgreich lokal auf einem handelsüblichen Game Boy Color ausgeführt, unter Verwendung von INT8-Gewichten und Festkomma-Arithmetik. Diese beeindruckende technische Leistung umfasste ein benutzerdefiniertes ROM und die Tokenisierung auf dem Gerät, trotz extrem langsamer Leistung und unsinniger Ausgabe.

I got a real transformer language model running locally on a stock Game Boy Color!
42
ARTICLEDEV.to AI·vor 15T

The Quiet AI War Inside Your Browser

Google hat die Prompt API in Chrome 148 eingeführt, die trotz starken Widerstands von Mozilla, Apple und dem W3C lokale KI-Inferenz mit Gemini Nano direkt auf den Geräten der Nutzer ermöglicht. Diese Funktion bietet KI ohne Serverkosten, Latenz oder das Verlassen von Daten vom Gerät und sichert Googles Sieg in diesem

30
DOCDEV.to AI·vor 24T

A Developer's Guide to AI Inference Costs in 2026

Dieser praktische Leitfaden unterstützt Entwickler bei der Schätzung der KI-Inferenzkosten, indem er Faktoren wie API-Token-Kosten und die entscheidende Cache-Trefferquote behandelt. Für selbst gehostete Modelle betont er die Bedeutung der GPU-Auslastungsraten zur Kostenoptimierung. Das Verständnis dieser Variablen ist für die finanzielle Nachhaltigkeit bei der Entwicklung von KI-Funktionen unerlässlich.

27
RESEARCHarXiv CS.AI·5/4/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena wird als kontinuierlicher Benchmark eingeführt, der die KI-Inferenz auf Endpunktgranularität entlang von fünf Kernachsen misst. Es fasst Ausgabegeschwindigkeit, Zeit bis zum ersten Token, Preis, effektiven Kontext und Qualität, zusammen mit Energieabschätzungen, in Verbundwerte wie Joule und Dollar pro korrekter Antwort sowie Endpunkt-Fidelity zusammen.

27
RESEARCHarXiv CS.LG·vor 20T

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI ist ein innovativer Router, der kalibrierte Unsicherheit nutzt, um die Kosten von LLM-Kaskaden zu optimieren, indem er einfache Anfragen an kleinere Modelle und schwierige an größere Modelle sendet. Er reduziert die Inferenzkosten in Produktionsumgebungen um 31% bei gleichbleibender Genauigkeit, indem er die Modellkonfidenz kalibriert.

27
RESEARCHarXiv CS.CL·vor 12T

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec stellt ein Framework für die Echtzeitentwicklung von Entwurfsmodellen in der spekulativen Dekodierung für große Sprachmodelle vor, das das Problem großer Vokabulargrößen angeht. Es verwendet dynamische Vokabular- und Parameteranpassung mittels eines kontextsensitiven Mechanismus und einer leichten Online-Abgleichstrategie zur Verbesserung der Akzeptanzraten und Minimierung von Verteilungsunterschieden.

27
ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

llama.cpp is the linux of llm

Der Inhalt vergleicht llama.cpp mit Linux für Große Sprachmodelle (LLMs), was auf eine grundlegende Open-Source-Lösung hindeutet. Es wird die Frage aufgeworfen, ob diese Analogie für das LLM-Ökosystem zutreffend ist.

27