performance

95 items

ARTICLE↑ trendingHacker News (AI)·vor 1T

Show HN: Web Speed – A shared web-map registry for AI agents (MCP, open source)

Der Autor stellt Web Speed vor, ein Open-Source-Tool, das HTML-Webseiten in leicht lesbare Sitemaps für KI-Agenten umwandelt, wodurch diese schneller und kostengünstiger werden. Das Projekt umfasst einen globalen Sitemap-Cache zur weiteren Beschleunigung der Agenten, der derzeit nur über die kostenpflichtige API-Version zugänglich ist.

Open Source sitemaps performance web parsing

ARTICLEDEV.to AI·4/23/2026

Stop Using sleep() in Your Agent Loops: Event-Driven AI Agent Scheduling

Dieser Artikel kritisiert die gängige Verwendung von `sleep()` in KI-Agentenschleifen und hebt deren Kosten hinsichtlich API-Budgetverschwendung, hoher Latenz und maskierten Fehlern hervor. Er plädiert für eine ereignisgesteuerte Planung als überlegene Alternative zur Kosten- und Leistungsoptimierung in großem Maßstab.

Optimization performance developer tools scheduling

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

I have (even faster) DeepSeek V4 Pro at home

Der Autor hat das DeepSeek V4 Pro Modell mit ktransformers noch schneller auf seiner Heimausrüstung zum Laufen gebracht. Er beschreibt die Hardware-Anpassungen und präsentiert Leistungstests mit zunehmender Kontexttiefe.

DeepSeek Benchmarking hardware performance

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

Used over a million tokens in three separate sessions to test Qwen 3.6 35b (new Multi-token Prediction version)

Der Autor testete das Qwen 3.6 35b MTP-Modell lokal und stellte eine 1,5-fache Geschwindigkeitssteigerung fest. Er untersuchte die Nutzung eines großen Kontextfensters und erreichte 300.000 Tokens mit Potenzial für mehr.

LLMs Benchmarking Local AI Qwen

NEWS↑ trendingReddit r/LocalLLaMA·4/27/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash stellt einen GGUF-Port der DFlash spekulativen Dekodierung für Qwen3.6-27B vor, der auf einer einzelnen RTX 3090 fast den doppelten Durchsatz erreicht. Dieser eigenständige C++/CUDA-Stack, als MIT-lizenzierte Open-Source-Software verfügbar, steigert die LLM-Leistung auf Consumer-Hardware erheblich.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

Gemma 4 on Llama.cpp should be stable now

A integração de correções no Llama.cpp resolveu problemas conhecidos do Gemma 4, tornando-o estável para uso. O conteúdo oferece dicas de execução, como uso de `--chat-template-file` e otimização de cache, além de alertar contra o uso do CUDA 13.2.

Technical Tips Gemma 4 llama.cpp performance

RESEARCH↑ trendingReddit r/LocalLLaMA·5/1/2026

nvidia/Gemma-4-26B-A4B-NVFP4

Der Inhalt bestätigt die Leistung des Gemma-4-26B-A4B-NVFP4-Modells auf einer NVIDIA 5090 GPU, mit 18.8GB VRAM-Nutzung und 50k Kontextkapazität. Es werden auch Benchmark-Ergebnisse für die NVFP4-Version im Vergleich zur vollen Präzision in verschiedenen Metriken wie GPQA, AIME und MMLU Pro vorgestellt.

AI models GPU Benchmarking NVIDIA

RESEARCH↑ trendingReddit r/LocalLLaMA·4/16/2026

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

Das Qwen 3.6 35B A3B Modell erreicht 187 Tokens pro Sekunde auf einer RTX 5090 32GB GPU. Es unterstützt eine Kontextgröße von 120K, nutzt Q5 K S Quantisierung und eine Temperatur von 0,1.

inference AI hardware benchmark performance

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

NEWS↑ trendingReddit r/LocalLLaMA·4/19/2026

llama.cpp speculative checkpointing was merged

Die "speculative checkpointing"-Funktion wurde in llama.cpp integriert und bietet potenzielle Geschwindigkeitsvorteile. Während einige Prompts, wie beim Codieren mit optimierten Parametern, eine Beschleunigung von 0% bis 50% erfahren können, profitieren andere möglicherweise nicht aufgrund geringer Entwurfsakzeptanzraten.

Open Source llama.cpp speculative-checkpointing AI inference

NEWS↑ trendingReddit r/LocalLLaMA·5/4/2026

Llama.cpp MTP support now in beta!

Die MTP-Unterstützung für llama.cpp befindet sich jetzt in der Beta-Phase, mit anfänglicher Unterstützung für Qwen3.5 MTP und dem Potenzial für eine baldige Zusammenführung. Diese Verbesserung, zusammen mit der Reifung der Tensor-Parallel-Unterstützung, wird voraussichtlich die Leistungsunterschiede zwischen llama.cpp und vLLM, insbesondere bei der Token-Generierungsgeschwindigkeit, beseitigen.

AI models Qwen3.5 MTP llama.cpp

ARTICLE↑ trendingReddit r/LocalLLaMA·4/30/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Dieses Update beschreibt den Betrieb von Qwen3.6-27B auf einer einzelnen RTX 3090, wodurch ein Kontext von ~218K und stabile Werkzeugaufrufe bei 50-66 TPS erreicht werden. Ein kritisches Speicherproblem bei langen Werkzeugausgaben wurde durch die Behebung eines Ankerdrifts in einem Genesis-Patch (PN12) für vLLM gelöst.

Optimization hardware performance vLLM

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

Der Titel beschreibt eine beeindruckende Optimierung für das Qwen3.6–27B-Modell, die 85 TPS und 125K Kontext mit Sehfähigkeiten auf einer einzelnen RTX 3090 erreicht. Dies ist eine bedeutende technische Leistung für den effizienten Einsatz von LLMs.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

RESEARCH↑ trendingReddit r/LocalLLaMA·4/22/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Dichte KI-Modelle übertreffen MoE derzeit insgesamt, aber MoE holt schnell auf, insbesondere bei Codierungs-Benchmarks. Für Benutzer mit 24 GB VRAM und dem Bedarf an großen Kontextfenstern wird MoE zu einer immer attraktiveren Option.

AI models LLMs Benchmarks MoE

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Is a high-end private local LLM setup worth it?

Der Nutzer hinterfragt den Nutzen eines High-End-Local-LLM-Setups, unter Verweis auf hohe Kosten, Einrichtungsschwierigkeiten und wahrgenommene Leistungslücken im Vergleich zu Cloud-Diensten wie Claude und GPT. Er ist bereit, in leistungsstarke Hardware zu investieren, möchte aber wissen, ob diese wirklich die Geschwindigkeit und Intelligenz der Top-Kommerzmodelle erreichen kann.

local LLM private-ai cost hardware

ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

Der Benutzer sucht Rat bei der Wahl zwischen einer RTX 5090 und einem M5 Max 128GB für die Entwicklung von Agenten-Software mit Qwen3.6 27B lokal. Die RTX 5090 bietet die dreifache Geschwindigkeit, während der M5 Max die vierfache Speicherkapazität bereitstellt, was einen Kompromiss zwischen schneller Codegenerierung und größerer Kontextkapazität darstellt.

LLMs GPU hardware performance

RESEARCH↑ trendingReddit r/LocalLLaMA·4/19/2026

QWEN3.6 + ik_llama is fast af

Ein Benutzer berichtete, dass das Modell Qwen3.6 + ik_llama mit über 50 Tokens/Sekunde bei einem Kontextfenster von 200k auf 16 GB VRAM und 32 GB RAM lief. Dies ist ein signifikanter Leistungsbenchmark für große Sprachmodelle.

Benchmarking hardware performance LLM

ARTICLEDEV.to AI·4/23/2026

Building a Bit-Accurate Fused QKV + RoPE Kernel for Qwen 2.5 in Triton

Dieser Artikel beschreibt die Erstellung eines bitgenauen Triton-Kernels für Qwen 2.5, der QKV-Projektion, RoPE und KV-Cache-Schreiben in einem einzigen Vorgang zusammenführt. Er erzielt eine 4,5- bis 5-fache Beschleunigung gegenüber mehreren PyTorch-Operationen, während die exakte Ausgabegenauigkeit erhalten bleibt.

GPU computing Transformer AI optimization Triton

NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

backend-agnostic tensor parallelism has been merged into llama.cpp

A funcionalidade de paralelismo de tensor backend-agnóstico foi integrada ao llama.cpp, permitindo que modelos de IA rodem muito mais rápido em sistemas com múltiplas GPUs. Isso significa que a aceleração de desempenho não exige mais CUDA.

LLMs Otimização GPU IA

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

Compared QWEN 3.6 35B with QWEN 3.6 27B for coding primitives

Der Inhalt vergleicht die Modelle Qwen 3.6 35B und 27B für Codierungs-Primitive, wobei der 35B schneller (72 TPS) aber weniger präzise ist als der 27B (18 TPS), der trotz geringerer Geschwindigkeit korrektere Ergebnisse liefert. Es enthält einen Test-Prompt und fragt nach Nutzererfahrungen.

Benchmarking Qwen performance coding

Compared QWEN 3.6 35B with QWEN 3.6 27B for coding primitives

NEWS↑ trendingReddit r/LocalLLaMA·4/12/2026

MiniMax m2.7 (mac only) 63gb: 88% and 89gb: 95%, MMLU 200q

Das für Mac optimierte KI-Modell MiniMax M2.7 wurde in 63GB- und 89GB-Versionen vorgestellt. Seine vielversprechende Leistung nähert sich der von Modellen wie Sonnet 4.5 an, wobei der MMLU-Benchmark als Referenz genannt wird.

local inference MiniMax performance HuggingFace