AI performance

27 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

Der Inhalt beschreibt ein Experiment, das erhebliche Geschwindigkeitssteigerungen (bis zu 68.35 Tokens/s) durch spekulatives Decoding mit dem Qwen-3.6-27B Modell über llamacpp zeigt. Der Autor demonstriert die Fähigkeit der KI, Code effizient zu generieren und zu debuggen.

Benchmarking AI performance Speculative Decoding LLM

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Dieser Artikel beschreibt eine neuartige dynamische Expertencaching-Strategie, die in llama.cpp implementiert wurde, um die Token-Generierung für große MoE-Modelle wie Qwen3.5-122B-A10B zu beschleunigen. Dieser Ansatz lädt häufig genutzte Experten in den VRAM, was zu einer bis zu 26,8 % schnelleren Token-Generierung im Vergleich zur schichtbasierten partiellen Auslagerung führt.

Token Generation llama.cpp VRAM Optimization MoE

ARTICLE↑ trendingHacker News (AI)·vor 5T

Google employees internally share memes about how its AI sucks

Google-Mitarbeiter teilen intern Memes, die sich über die schlechte Qualität der KI des Unternehmens lustig machen. Dies spiegelt eine Frustration und Skepsis gegenüber den intern entwickelten KI-Produkten wider.

Internal culture Google AI Employee sentiment memes

ARTICLE↑ trendingReddit r/LocalLLaMA·4/12/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Tests zum spekulativen Decoding, bei denen Gemma 4 E2B als Entwurf für Gemma 4 31B verwendet wurde, zeigten eine bemerkenswerte Leistungsverbesserung. Die durchschnittliche Geschwindigkeit stieg um 29 %, erreichte in der Codegenerierung sogar 50 %, und das mit spezifischen Hard- und Softwarekonfigurationen.

Gemma 4 31B llama.cpp benchmark AI performance

RESEARCH↑ trendingReddit r/LocalLLaMA·vor 19T

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

Der Autor erreichte 110 tok/s mit 12GB VRAM unter Verwendung von ik_llama.cpp auf dem Qwen3.6 35B A3B Modell und verzeichnete einen erheblichen Geschwindigkeitszuwachs. Diese Leistung übertraf die von regulärem llama.cpp nach dem MTP PR Merge.

GPU VRAM LLM optimization llama.cpp Benchmarking

CASE↑ trendingReddit r/LocalLLaMA·4/18/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Ein Benutzer berichtet, dass Qwen 3.6 einen signifikanten Leistungssprung demonstriert und sich als fähig für Workloads erweist, die typischerweise von Opus und Codex bewältigt werden, wenn auch noch nicht auf deren Niveau. Der Benutzer hebt seine Nützlichkeit und Geschwindigkeit hervor, besonders wenn es mit `preserve_thinking` auf einem M5 Max mit spezifischen Einstellungen korrekt konfiguriert ist.

LLMs AI hardware local inference AI performance

qwen3.6 performance jump is real, just make sure you have it properly configured

NEWS↑ trendingReddit r/LocalLLaMA·4/15/2026

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

Die neue DFlash-Unterstützung in oMLX 0.3.5 RC1 hat Berichten zufolge die Generierungsgeschwindigkeit des Qwen3.5 27B (BF16) Modells auf einem Mac M5 Max von 9 auf 22 T/S verdoppelt. Dieser Durchbruch könnte die lokale Bereitstellung dieses hochwertigen Modells bei höheren Quantisierungen/vollen Gewichten erheblich verbessern.

oMLX DFlash Qwen3.5 AI performance

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Ein Benutzer versucht, Programmierarbeiten mit Qwen3.6-35B auf einem M2 Macbook Pro mit 32 GB RAM durchzuführen, stößt jedoch auf Probleme mit Speicherausschöpfung und Kontextfensterverwaltung. Obwohl das Modell die Kernursache eines Fehlers erkennt, scheitert es an der Implementierung, da wichtige Informationen während der Kontextkomprimierung verloren gehen.

LLMs open-source AI local inference code generation

ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

An actual example of "If you dont run it, you dont own it" and Gemma 4 beats both Chat GPT and Gemini Chat

Der Autor berichtet über seine Erfahrungen mit verschiedenen KI-Modellen (GPT OOS 120B, Qwen 3 Max, Chat GPT 4o) zur Übersetzung eines chinesischen Romans, wobei er Herausforderungen bei der Namenskonsistenz und unerwartete Zensur hervorhebt. Chat GPT 4o war anfänglich am besten in Bezug auf Genauigkeit und Übersetzungsqualität, doch einige Modelle zeigten im Laufe der Zeit eine Verschlechterung oder Filterung.

Translation censorship model comparison AI performance

ARTICLEDEV.to AI·vor 3T

<think>

Dieser Inhalt beschreibt die Anforderungen für einen technischen Artikel zur Analyse der Leistung und Preisgestaltung von KI-Modellen, mit Fokus auf Metriken wie TTFT und Tokens/Sek. Es werden genaue Preis- und Modellierungsdaten, Testregionen und Codebeispiele für eine globale API angegeben, die sich an ein Backend-Ingenieurpublikum richten.

AI pricing API Benchmarks AI performance

ARTICLEDEV.to AI·vor 5T

Context Window Management: Tactics That Survive Real Sessions

Große Sprachmodelle haben oft ein wesentlich kleineres praktisches Kontextfenster als ihr beworbenes nominelles Limit, was auf Overhead und Aufmerksamkeitsverfall zurückzuführen ist. Diese Diskrepanz beeinflusst das Prompt-Design und führt zu Qualitätseinbußen und Trunkierungen, lange bevor die harte Token-Grenze erreicht ist.

prompt-engineering Technical limitations AI performance large language models

RESEARCHDEV.to AI·5/10/2026

Diffusion models approach AR quality and improve inference speed

Diffusionssprachmodelle erzielen nun erhebliche Durchsatzsteigerungen und verringern den Abstand zu autoregressiven Decodern bei der Inferenzgeschwindigkeit. Neue Introspektive Diffusionssprachmodelle (I-DLM) beheben frühere Probleme der introspektiven Konsistenz und ineffizienter Sampling-Schleifen, wodurch sowohl Qualität als auch Latenz verbessert werden.

inference speed Diffusion Models language models machine learning

RESEARCHarXiv CS.AI·5/4/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Diese Forschung stellt die Annahme in Frage, dass werkzeuggestütztes Denken die LLM-Leistung immer verbessert, und zeigt eine "Tool-Use Tax" durch das Tool-Calling-Protokoll auf, die die Leistung mindern kann. Ein Faktorisiertes Interventionsrahmenwerk wird vorgeschlagen, um dies zu analysieren, und G-STEP wird zur teilweisen Minderung von Protokollfehlern eingeführt.

LLM Agents Reasoning AI performance tool use

ARTICLEDEV.to AI·vor 19T

Gemini 3.5 Flash & Google Antigravity 2.0: A Real-World Performance Analysis

Googles Gemini 3.5 Flash stellt die Annahme in Frage, dass intelligentere KI-Modelle langsamer sein müssen, indem es Antigravity 2.0 für KI-Agenten antreibt. Es übertrifft Konkurrenzmodelle in realen Leistungsbenchmarks erheblich und demonstriert überlegene Geschwindigkeit.

AI models Antigravity 2.0 Google I/O Gemini 3.5 Flash

ARTICLEDEV.to AI·vor 13T

Enterprise AI Audit Checklist: How Real-Time Quality Scoring Improves AI Performance

Mit der zunehmenden Einführung von KI in Unternehmen wird die kontinuierliche Überwachung der Systemleistung entscheidend. Eine "Enterprise AI Audit Checklist" und Echtzeit-Qualitätsbewertung sind unerlässlich, um die Genauigkeit sicherzustellen und die Modellverschlechterung nach der Bereitstellung zu verhindern.

AI Monitoring AI audit Quality Scoring AI performance

ARTICLETwo Minute Papers (YouTube)·vor 6T

Claude Opus 4.8: Lying Machine No More?

Dieser Artikel befasst sich mit Claude Opus 4.8 und hinterfragt, ob seine Fähigkeiten verbessert wurden, um irreführende Informationen zu vermeiden. Er analysiert die Leistung des Modells hinsichtlich Zuverlässigkeit und Genauigkeit.

AI models LLMs AI reliability AI performance

ARTICLEDEV.to AI·vor 13T

AI Agents Fail 70%. The Replacement Story Is A Lie.

Jüngste unabhängige Studien widerlegen den Mythos, dass KI-Agenten bald Arbeitsplätze ersetzen werden, und zeigen, dass selbst die besten Agenten nur etwa 30% der Bürotätigkeiten autonom erledigen. Forschungen von Carnegie Mellon, Huawei und Salesforce weisen auf hohe Fehlerraten hin, die oft Datenfälschung oder die Unfähigkeit, komplexe, mehrstufige Aufgaben sicher und effektiv zu bewältigen, umfassen.

future-of-work task automation Benchmarking AI performance

RESEARCHDEV.to AI·5/8/2026

Micro LM delivers large‑model quality on device

Eine neue Studie stellt Micro Language Models (μLMs) vor, ultrakompakte Modelle (8M–30M Parameter), die große Modellqualität auf Geräten liefern. Dieser Ansatz löst das Dilemma zwischen sofortiger erster Antwort und vollständiger, durchdachter Antwort bei Edge-Assistenten, indem Antworten lokal begonnen und die Latenz durch Cloud-Modelle reduziert werden.

language models micro LMs Edge AI on-device AI

RESEARCHarXiv CS.AI·4/25/2026

Deep FinResearch Bench: Evaluating AI's Ability to Conduct Professional Financial Investment Research

Deep FinResearch Bench stellt ein neues Bewertungsrahmenwerk für Deep Research (DR)-Agenten in der Finanzanlageforschung vor. Es zeigt, dass KI-generierte Berichte noch hinter denen von Fachleuten zurückbleiben, was den Bedarf an spezialisierter KI unterstreicht.

Financial AI Benchmarking AI performance AI evaluation

ARTICLEDEV.to AI·4/14/2026

MiniMax M2 on OpenClaw: Setup, Pricing, and Performance...

Der Artikel beschreibt die M2-Familie von großen Sprachmodellen von MiniMax, die eine Mixture-of-Experts-Architektur für hohe Leistung bei geringen Inferenzkosten nutzt. Das M2.7-Modell erreicht 90 % der Qualität eines Spitzenmodells zu 7 % der Kosten, mit Benchmark-Ergebnissen, die mit Claude Sonnet 4 vergleichbar sind.

OpenClaw AI performance Mixture of Experts MiniMax M2