LLMs

714 items

NEWS↑ trendingReddit r/MachineLearning·4/22/2026

INT3 compression+fused metal kernels [R]

Ein alleiniger Gründer und Forscher hat INT3-Modellkomprimierung und einen 2-Bit-KV-Cache mit kundenspezifischen, fusionierten Metal-Kernels für Mac (M-Serie) entwickelt. Qwen 7B ist als Vorschau verfügbar, und weitere Optimierungen sowie GPU-Unterstützung sind geplant.

Hardware Acceleration LLMs quantization model optimization

DOCDEV.to AI·vor 2T

MeghRoop Tech Blog

Dieser umfassende Leitfaden soll technische Führungskräfte in Unternehmen mit allem ausstatten, was sie benötigen, um KI-Agenten in der Produktion bis 2026 effektiv einzusetzen. KI-Agenten sind autonome Software-Einheiten, die von LLMs angetrieben werden und komplexe Aufgaben in Live-Unternehmensumgebungen eigenständig planen, ausführen, debuggen und iterieren können. Sie automatisieren die Softwareentwicklung und optimieren operative Arbeitsabläufe, wodurch Innovationszyklen erheblich beschleunigt werden.

LLMs software development Enterprise AI automation

DOCDEV.to AI·vor 2T

How to Convert Webpages into Clean Markdown for LLMs (in 5ms)

Dieser Leitfaden erklärt, wie man verrauschte Webseiten in sauberes, semantisches Markdown für Große Sprachmodelle (LLMs) in Millisekunden umwandelt. Er beschreibt einen mehrstufigen Bereinigungsprozess, um HTML-Unordnung zu entfernen und die Token-Nutzung zu optimieren, wodurch API-Kosten gesenkt und die Modellleistung für Anwendungen wie Chatbots und RAG-Pipelines verbessert werden.

LLMs HTML cleanup data preprocessing markdown

RESEARCH↑ trendingReddit r/MachineLearning·4/22/2026

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Eine Trainingszeit-Intervention für 1,2B-Parameter-Sprachmodelle, die eine präzisionsgewichtete Gain-Funktion und divergenzskalierte Gradienten verwendet, führte zu einer signifikant höheren menschlichen Präferenz (63,4%, p < 0.00002) im Vergleich zum Standardtraining. Bemerkenswerterweise erfolgte diese Präferenzverschiebung ohne Änderung der aggregierten Validierungsverlustmetrik, was darauf hindeutet, dass Trainingsinterventionen jenseits von RLHF wirksam sein können.

LLMs machine learning Human Preference training methods

ARTICLE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

Der Autor empfindet Qwen 3.6 als das erste lokale Modell, das den Aufwand wirklich wert ist, im Gegensatz zu früheren Erfahrungen mit Modellen, die entweder zu schwach waren oder übermäßige Anpassungen erforderten. Auf einem 5090 + 4090 Setup bietet das Q8-Modell einen Kontext von 260.000 und 170 Token/Sekunde und erweist sich als effektiv für Codierungsaufgaben wie UI XML und eingebettetes C++.

LLMs local models Qwen developer experience

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

Der Autor zeigt, dass die Kombination des Qwen3.6-35B-Modells mit dem „little-coder“-Agenten dessen Leistung im Polyglot-Benchmark drastisch auf 78,7 % verbessert, wodurch es mit Top-Cloud-Modellen konkurrenzfähig wird. Diese Erkenntnis deutet darauf hin, dass eine „Geschirr-Fehlanpassung“ in den Testaufbauten Leistungsunterschiede zwischen lokalen und Cloud-KI-Modellen erklären könnte.

LLMs coding agents Benchmarking Agent systems

ARTICLEKDNuggets·vor 1T

Why Do LLMs Corrupt Your Documents When You Delegate?

Dieser Inhalt analysiert mehrere Gründe, warum struktureller Inhaltsverfall auftreten kann, wenn komplexe Dokumentenbearbeitungsaufgaben an große Sprachmodelle (LLMs) delegiert werden. Er untersucht die Herausforderungen und Probleme, die dieser Delegation inhärent sind.

content editing LLMs AI limitations AI delegation

Why Do LLMs Corrupt Your Documents When You Delegate?

ARTICLEDEV.to AI·vor 2T

ChatGPT vs Claude in 2026: which AI assistant should you use?

Dieser Artikel vergleicht ChatGPT und Claude für 2026 und konzentriert sich darauf, welcher KI-Assistent besser zu unterschiedlichen Arbeitsabläufen passt. Er beschreibt die idealen Anwendungsfälle, Ökosysteme, Stärken und Schwächen jedes einzelnen für Aufgaben wie allgemeine Fragen und Antworten, lange Dokumente und Codierung.

LLMs Claude ChatGPT AI tools

RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Dieser Bericht dokumentiert fünf Fallstudien, die zeigen, wie LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) mittels menschlicher Social-Engineering-Taktiken gejailbreakt werden können, was darauf hindeutet, dass sie psychologische Schwachstellen aus ihren Trainingsdaten erben. Die zentrale Behauptung ist, dass diese Alignment-Fehler keine mathematischen Exploits sind, sondern ein Ergebnis der Simulation menschlicher Eigenschaften, wodurch LLMs anfällig für soziale Manipulation werden.

LLMs social engineering jailbreaks psychological vulnerabilities

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Ein Nutzer entdeckte und behob ein signifikantes Tensor-Drift-Problem in den `ssm_conv1d`-Layern quantisierter Qwen3.6-35B GGUF-Modelle und schlug die Wasserstein-Metrik als überlegen gegenüber Kullback-Leibler zur Erkennung numerischer Instabilität vor. Die Korrektur, die speziell auf rekurrente Zustandsübergangsschichten für Langkontextgedächtnis abzielt, ist nun in einem geteilten Modell verfügbar.

LLMs quantization GGUF model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

why llama.cpp can’t combine speculative decode methods?

Ein Benutzer untersucht, warum spekulative Dekodierungsmethoden wie MTP und N-gramm in llama.cpp nicht gleichzeitig kombiniert werden können, wobei N-gramm erhebliche Verbesserungen für das agentische Programmieren bietet. Er möchte wissen, ob dies eine grundlegende oder implementierungsbedingte Einschränkung ist, und stellt fest, dass andere dieselbe Frage bereits gestellt haben.

Optimization LLMs llama.cpp Qwen3.6

RESEARCHarXiv CS.CL·4/23/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD stellt ein progressives Verfeinerungsframework vor, das die Text-zu-CAD-Generierung und -Bearbeitung vereint und so die Einschränkungen getrennter Ansätze überwindet. Es nutzt einen hochauflösenden Interaktionsdatensatz und ein mit Reinforcement Learning verbessertes Denkframework, das auf LLMs zugeschnitten ist, um eine steuerbare und originalgetreue CAD-Modellierung zu ermöglichen.

LLMs reinforcement learning CAD modeling text-to-CAD

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Learning, Fast and Slow: Towards LLMs That Adapt Continually [R]

Große Sprachmodelle (LLMs) sind mit katastrophalem Vergessen und Plastizitätsverlust konfrontiert, wenn sie ihre Parameter für nachgelagerte Aufgaben aktualisieren. Diese Arbeit stellt ein "schnell-langsam"-Lernframework für LLMs vor, das Modellparameter als langsame Gewichte und optimierten Kontext als schnelle Gewichte nutzt, um sich effizient anzupassen, ohne das allgemeine Denkvermögen zu beeinträchtigen.

LLMs learning Catastrophic Forgetting AI Research

ARTICLE↑ trendingHacker News (AI)·vor 7T

I'm Done Using AI

Der Autor äußert Frustration über die Verwendung von LLMs zum Codieren, da er einen Verlust des Arbeitsflusses, verschwendete Zeit bei architektonischen Änderungen und manipulierte Tests erlebt. Er kommt zu dem Schluss, dass LLMs zwar als Suchmaschine für die Recherche nützlich sind, aber eine teure Zeitverschwendung für das Codieren darstellen und zu einem Abbau von Fähigkeiten führen.

LLMs AI limitations developer productivity Skill Atrophy

ARTICLE↑ trendingHacker News (AI)·vor 12T

Show HN: Local Coding Agent with LLMs to Delegate Tool Calls to Small AI Models

Dieses Projekt stellt einen lokalen Codierungsagenten vor, der Große Sprachmodelle (LLMs) nutzt, um spezifische Aufgaben, insbesondere Werkzeugaufrufe, an kleinere, spezialisierte KI-Modelle zu delegieren. Ziel ist es, die Effizienz und Modularität in der KI-gesteuerten Entwicklung durch die Verteilung von Arbeitslasten zu verbessern.

Open Source AI models LLMs software development

ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

LLMs learn backwards, and the scaling hypothesis is bounded. [D]

Dieser Inhalt erörtert die Ansicht, dass Large Language Models (LLMs) invers lernen und die Skalierbarkeitshypothese inhärente Grenzen aufweist.

LLMs deep learning scaling hypothesis modelos de linguagem

RESEARCH↑ trendingReddit r/LocalLLaMA·4/27/2026

The 4B class of 2026 (benchmark)

Der Inhalt beschreibt einen Benchmark-Vergleich von fünf 3-4B-KI-Modellen (gemma4, qwen3.5, granite4, nemotron-3-nano, phi4-mini) über 39 Aufgaben in den Bereichen Finanzen, Logik und Code. Nemotron 3 Nano ging als klarer Sieger hervor und erzielte eine Gesamtpunktzahl von 85 %, womit es die Konkurrenz deutlich übertraf.

AI models LLMs Benchmarking Generative AI

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

Used over a million tokens in three separate sessions to test Qwen 3.6 35b (new Multi-token Prediction version)

Der Autor testete das Qwen 3.6 35b MTP-Modell lokal und stellte eine 1,5-fache Geschwindigkeitssteigerung fest. Er untersuchte die Nutzung eines großen Kontextfensters und erreichte 300.000 Tokens mit Potenzial für mehr.

LLMs Benchmarking Local AI Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Eine neuartige Methode ermöglicht es, eingefrorenen MoE-Modellen neues Wissen durch Steuerung ihres Experten-Routings beizubringen und dabei traditionelles Training zu umgehen. Diese Technik, genannt Adaptive Kognitive Intelligenz (ACI), demonstrierte die Korrektur von Sachfehlern in Gemma 4 mithilfe nur einer kleinen Konfigurationsdatei.

model steering LLMs Gemma 4 Knowledge Injection

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Dieser Inhalt präsentiert ein vergleichendes Forschungsprojekt, das „abliterierte Modelle“ (HauhauCS, Heretic, Huihui) gegen Qwen 3/3.5 analysiert, mithilfe einer vollständigen forensischen Suite inklusive Benchmarks und Sicherheitsbewertungen. Ziel ist es, Behauptungen zu überprüfen, dass diese Modelle „verlustfrei unzensiert“ und vom Leser reproduzierbar sind.

AI models LLMs Model Evaluation Benchmarking