← heapsort-ai

AI performance

27 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Dieser Artikel beschreibt eine neuartige dynamische Expertencaching-Strategie, die in llama.cpp implementiert wurde, um die Token-Generierung für große MoE-Modelle wie Qwen3.5-122B-A10B zu beschleunigen. Dieser Ansatz lädt häufig genutzte Experten in den VRAM, was zu einer bis zu 26,8 % schnelleren Token-Generierung im Vergleich zur schichtbasierten partiellen Auslagerung führt.

43
CASE↑ trendingReddit r/LocalLLaMA·4/18/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Ein Benutzer berichtet, dass Qwen 3.6 einen signifikanten Leistungssprung demonstriert und sich als fähig für Workloads erweist, die typischerweise von Opus und Codex bewältigt werden, wenn auch noch nicht auf deren Niveau. Der Benutzer hebt seine Nützlichkeit und Geschwindigkeit hervor, besonders wenn es mit `preserve_thinking` auf einem M5 Max mit spezifischen Einstellungen korrekt konfiguriert ist.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Ein Benutzer versucht, Programmierarbeiten mit Qwen3.6-35B auf einem M2 Macbook Pro mit 32 GB RAM durchzuführen, stößt jedoch auf Probleme mit Speicherausschöpfung und Kontextfensterverwaltung. Obwohl das Modell die Kernursache eines Fehlers erkennt, scheitert es an der Implementierung, da wichtige Informationen während der Kontextkomprimierung verloren gehen.

39
ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

An actual example of "If you dont run it, you dont own it" and Gemma 4 beats both Chat GPT and Gemini Chat

Der Autor berichtet über seine Erfahrungen mit verschiedenen KI-Modellen (GPT OOS 120B, Qwen 3 Max, Chat GPT 4o) zur Übersetzung eines chinesischen Romans, wobei er Herausforderungen bei der Namenskonsistenz und unerwartete Zensur hervorhebt. Chat GPT 4o war anfänglich am besten in Bezug auf Genauigkeit und Übersetzungsqualität, doch einige Modelle zeigten im Laufe der Zeit eine Verschlechterung oder Filterung.

35
ARTICLEDEV.to AI·vor 3T

<think>

Dieser Inhalt beschreibt die Anforderungen für einen technischen Artikel zur Analyse der Leistung und Preisgestaltung von KI-Modellen, mit Fokus auf Metriken wie TTFT und Tokens/Sek. Es werden genaue Preis- und Modellierungsdaten, Testregionen und Codebeispiele für eine globale API angegeben, die sich an ein Backend-Ingenieurpublikum richten.

29
RESEARCHDEV.to AI·5/10/2026

Diffusion models approach AR quality and improve inference speed

Diffusionssprachmodelle erzielen nun erhebliche Durchsatzsteigerungen und verringern den Abstand zu autoregressiven Decodern bei der Inferenzgeschwindigkeit. Neue Introspektive Diffusionssprachmodelle (I-DLM) beheben frühere Probleme der introspektiven Konsistenz und ineffizienter Sampling-Schleifen, wodurch sowohl Qualität als auch Latenz verbessert werden.

28
RESEARCHarXiv CS.AI·5/4/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Diese Forschung stellt die Annahme in Frage, dass werkzeuggestütztes Denken die LLM-Leistung immer verbessert, und zeigt eine "Tool-Use Tax" durch das Tool-Calling-Protokoll auf, die die Leistung mindern kann. Ein Faktorisiertes Interventionsrahmenwerk wird vorgeschlagen, um dies zu analysieren, und G-STEP wird zur teilweisen Minderung von Protokollfehlern eingeführt.

28
ARTICLEDEV.to AI·vor 13T

AI Agents Fail 70%. The Replacement Story Is A Lie.

Jüngste unabhängige Studien widerlegen den Mythos, dass KI-Agenten bald Arbeitsplätze ersetzen werden, und zeigen, dass selbst die besten Agenten nur etwa 30% der Bürotätigkeiten autonom erledigen. Forschungen von Carnegie Mellon, Huawei und Salesforce weisen auf hohe Fehlerraten hin, die oft Datenfälschung oder die Unfähigkeit, komplexe, mehrstufige Aufgaben sicher und effektiv zu bewältigen, umfassen.

27
RESEARCHDEV.to AI·5/8/2026

Micro LM delivers large‑model quality on device

Eine neue Studie stellt Micro Language Models (μLMs) vor, ultrakompakte Modelle (8M–30M Parameter), die große Modellqualität auf Geräten liefern. Dieser Ansatz löst das Dilemma zwischen sofortiger erster Antwort und vollständiger, durchdachter Antwort bei Edge-Assistenten, indem Antworten lokal begonnen und die Latenz durch Cloud-Modelle reduziert werden.

27