← heapsort-ai

performance

95 items

ARTICLE↑ trendingHacker News (AI)·vor 1T

Show HN: Web Speed – A shared web-map registry for AI agents (MCP, open source)

Der Autor stellt Web Speed vor, ein Open-Source-Tool, das HTML-Webseiten in leicht lesbare Sitemaps für KI-Agenten umwandelt, wodurch diese schneller und kostengünstiger werden. Das Projekt umfasst einen globalen Sitemap-Cache zur weiteren Beschleunigung der Agenten, der derzeit nur über die kostenpflichtige API-Version zugänglich ist.

55
RESEARCH↑ trendingReddit r/LocalLLaMA·5/1/2026

nvidia/Gemma-4-26B-A4B-NVFP4

Der Inhalt bestätigt die Leistung des Gemma-4-26B-A4B-NVFP4-Modells auf einer NVIDIA 5090 GPU, mit 18.8GB VRAM-Nutzung und 50k Kontextkapazität. Es werden auch Benchmark-Ergebnisse für die NVFP4-Version im Vergleich zur vollen Präzision in verschiedenen Metriken wie GPQA, AIME und MMLU Pro vorgestellt.

nvidia/Gemma-4-26B-A4B-NVFP4
42
NEWS↑ trendingReddit r/LocalLLaMA·5/4/2026

Llama.cpp MTP support now in beta!

Die MTP-Unterstützung für llama.cpp befindet sich jetzt in der Beta-Phase, mit anfänglicher Unterstützung für Qwen3.5 MTP und dem Potenzial für eine baldige Zusammenführung. Diese Verbesserung, zusammen mit der Reifung der Tensor-Parallel-Unterstützung, wird voraussichtlich die Leistungsunterschiede zwischen llama.cpp und vLLM, insbesondere bei der Token-Generierungsgeschwindigkeit, beseitigen.

Llama.cpp MTP support now in beta!
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/30/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Dieses Update beschreibt den Betrieb von Qwen3.6-27B auf einer einzelnen RTX 3090, wodurch ein Kontext von ~218K und stabile Werkzeugaufrufe bei 50-66 TPS erreicht werden. Ein kritisches Speicherproblem bei langen Werkzeugausgaben wurde durch die Behebung eines Ankerdrifts in einem Genesis-Patch (PN12) für vLLM gelöst.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Is a high-end private local LLM setup worth it?

Der Nutzer hinterfragt den Nutzen eines High-End-Local-LLM-Setups, unter Verweis auf hohe Kosten, Einrichtungsschwierigkeiten und wahrgenommene Leistungslücken im Vergleich zu Cloud-Diensten wie Claude und GPT. Er ist bereit, in leistungsstarke Hardware zu investieren, möchte aber wissen, ob diese wirklich die Geschwindigkeit und Intelligenz der Top-Kommerzmodelle erreichen kann.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

Der Benutzer sucht Rat bei der Wahl zwischen einer RTX 5090 und einem M5 Max 128GB für die Entwicklung von Agenten-Software mit Qwen3.6 27B lokal. Die RTX 5090 bietet die dreifache Geschwindigkeit, während der M5 Max die vierfache Speicherkapazität bereitstellt, was einen Kompromiss zwischen schneller Codegenerierung und größerer Kontextkapazität darstellt.

41
RESEARCH↑ trendingReddit r/LocalLLaMA·4/19/2026

QWEN3.6 + ik_llama is fast af

Ein Benutzer berichtete, dass das Modell Qwen3.6 + ik_llama mit über 50 Tokens/Sekunde bei einem Kontextfenster von 200k auf 16 GB VRAM und 32 GB RAM lief. Dies ist ein signifikanter Leistungsbenchmark für große Sprachmodelle.

QWEN3.6 + ik_llama is fast af
38