← heapsort-ai

LLMs

714 items

DOCDEV.to AI·vor 2T

MeghRoop Tech Blog

Dieser umfassende Leitfaden soll technische Führungskräfte in Unternehmen mit allem ausstatten, was sie benötigen, um KI-Agenten in der Produktion bis 2026 effektiv einzusetzen. KI-Agenten sind autonome Software-Einheiten, die von LLMs angetrieben werden und komplexe Aufgaben in Live-Unternehmensumgebungen eigenständig planen, ausführen, debuggen und iterieren können. Sie automatisieren die Softwareentwicklung und optimieren operative Arbeitsabläufe, wodurch Innovationszyklen erheblich beschleunigt werden.

48
DOCDEV.to AI·vor 2T

How to Convert Webpages into Clean Markdown for LLMs (in 5ms)

Dieser Leitfaden erklärt, wie man verrauschte Webseiten in sauberes, semantisches Markdown für Große Sprachmodelle (LLMs) in Millisekunden umwandelt. Er beschreibt einen mehrstufigen Bereinigungsprozess, um HTML-Unordnung zu entfernen und die Token-Nutzung zu optimieren, wodurch API-Kosten gesenkt und die Modellleistung für Anwendungen wie Chatbots und RAG-Pipelines verbessert werden.

48
RESEARCH↑ trendingReddit r/MachineLearning·4/22/2026

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Eine Trainingszeit-Intervention für 1,2B-Parameter-Sprachmodelle, die eine präzisionsgewichtete Gain-Funktion und divergenzskalierte Gradienten verwendet, führte zu einer signifikant höheren menschlichen Präferenz (63,4%, p < 0.00002) im Vergleich zum Standardtraining. Bemerkenswerterweise erfolgte diese Präferenzverschiebung ohne Änderung der aggregierten Validierungsverlustmetrik, was darauf hindeutet, dass Trainingsinterventionen jenseits von RLHF wirksam sein können.

47
ARTICLE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

Der Autor empfindet Qwen 3.6 als das erste lokale Modell, das den Aufwand wirklich wert ist, im Gegensatz zu früheren Erfahrungen mit Modellen, die entweder zu schwach waren oder übermäßige Anpassungen erforderten. Auf einem 5090 + 4090 Setup bietet das Q8-Modell einen Kontext von 260.000 und 170 Token/Sekunde und erweist sich als effektiv für Codierungsaufgaben wie UI XML und eingebettetes C++.

46
ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

Der Autor zeigt, dass die Kombination des Qwen3.6-35B-Modells mit dem „little-coder“-Agenten dessen Leistung im Polyglot-Benchmark drastisch auf 78,7 % verbessert, wodurch es mit Top-Cloud-Modellen konkurrenzfähig wird. Diese Erkenntnis deutet darauf hin, dass eine „Geschirr-Fehlanpassung“ in den Testaufbauten Leistungsunterschiede zwischen lokalen und Cloud-KI-Modellen erklären könnte.

46
ARTICLEDEV.to AI·vor 2T

ChatGPT vs Claude in 2026: which AI assistant should you use?

Dieser Artikel vergleicht ChatGPT und Claude für 2026 und konzentriert sich darauf, welcher KI-Assistent besser zu unterschiedlichen Arbeitsabläufen passt. Er beschreibt die idealen Anwendungsfälle, Ökosysteme, Stärken und Schwächen jedes einzelnen für Aufgaben wie allgemeine Fragen und Antworten, lange Dokumente und Codierung.

44
RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Dieser Bericht dokumentiert fünf Fallstudien, die zeigen, wie LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) mittels menschlicher Social-Engineering-Taktiken gejailbreakt werden können, was darauf hindeutet, dass sie psychologische Schwachstellen aus ihren Trainingsdaten erben. Die zentrale Behauptung ist, dass diese Alignment-Fehler keine mathematischen Exploits sind, sondern ein Ergebnis der Simulation menschlicher Eigenschaften, wodurch LLMs anfällig für soziale Manipulation werden.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Ein Nutzer entdeckte und behob ein signifikantes Tensor-Drift-Problem in den `ssm_conv1d`-Layern quantisierter Qwen3.6-35B GGUF-Modelle und schlug die Wasserstein-Metrik als überlegen gegenüber Kullback-Leibler zur Erkennung numerischer Instabilität vor. Die Korrektur, die speziell auf rekurrente Zustandsübergangsschichten für Langkontextgedächtnis abzielt, ist nun in einem geteilten Modell verfügbar.

44
ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

why llama.cpp can’t combine speculative decode methods?

Ein Benutzer untersucht, warum spekulative Dekodierungsmethoden wie MTP und N-gramm in llama.cpp nicht gleichzeitig kombiniert werden können, wobei N-gramm erhebliche Verbesserungen für das agentische Programmieren bietet. Er möchte wissen, ob dies eine grundlegende oder implementierungsbedingte Einschränkung ist, und stellt fest, dass andere dieselbe Frage bereits gestellt haben.

43
RESEARCHarXiv CS.CL·4/23/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD stellt ein progressives Verfeinerungsframework vor, das die Text-zu-CAD-Generierung und -Bearbeitung vereint und so die Einschränkungen getrennter Ansätze überwindet. Es nutzt einen hochauflösenden Interaktionsdatensatz und ein mit Reinforcement Learning verbessertes Denkframework, das auf LLMs zugeschnitten ist, um eine steuerbare und originalgetreue CAD-Modellierung zu ermöglichen.

43
RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Learning, Fast and Slow: Towards LLMs That Adapt Continually [R]

Große Sprachmodelle (LLMs) sind mit katastrophalem Vergessen und Plastizitätsverlust konfrontiert, wenn sie ihre Parameter für nachgelagerte Aufgaben aktualisieren. Diese Arbeit stellt ein "schnell-langsam"-Lernframework für LLMs vor, das Modellparameter als langsame Gewichte und optimierten Kontext als schnelle Gewichte nutzt, um sich effizient anzupassen, ohne das allgemeine Denkvermögen zu beeinträchtigen.

42
ARTICLE↑ trendingHacker News (AI)·vor 7T

I'm Done Using AI

Der Autor äußert Frustration über die Verwendung von LLMs zum Codieren, da er einen Verlust des Arbeitsflusses, verschwendete Zeit bei architektonischen Änderungen und manipulierte Tests erlebt. Er kommt zu dem Schluss, dass LLMs zwar als Suchmaschine für die Recherche nützlich sind, aber eine teure Zeitverschwendung für das Codieren darstellen und zu einem Abbau von Fähigkeiten führen.

42
ARTICLE↑ trendingHacker News (AI)·vor 12T

Show HN: Local Coding Agent with LLMs to Delegate Tool Calls to Small AI Models

Dieses Projekt stellt einen lokalen Codierungsagenten vor, der Große Sprachmodelle (LLMs) nutzt, um spezifische Aufgaben, insbesondere Werkzeugaufrufe, an kleinere, spezialisierte KI-Modelle zu delegieren. Ziel ist es, die Effizienz und Modularität in der KI-gesteuerten Entwicklung durch die Verteilung von Arbeitslasten zu verbessern.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·4/27/2026

The 4B class of 2026 (benchmark)

Der Inhalt beschreibt einen Benchmark-Vergleich von fünf 3-4B-KI-Modellen (gemma4, qwen3.5, granite4, nemotron-3-nano, phi4-mini) über 39 Aufgaben in den Bereichen Finanzen, Logik und Code. Nemotron 3 Nano ging als klarer Sieger hervor und erzielte eine Gesamtpunktzahl von 85 %, womit es die Konkurrenz deutlich übertraf.

The 4B class of 2026 (benchmark)
42
RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Eine neuartige Methode ermöglicht es, eingefrorenen MoE-Modellen neues Wissen durch Steuerung ihres Experten-Routings beizubringen und dabei traditionelles Training zu umgehen. Diese Technik, genannt Adaptive Kognitive Intelligenz (ACI), demonstrierte die Korrektur von Sachfehlern in Gemma 4 mithilfe nur einer kleinen Konfigurationsdatei.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Dieser Inhalt präsentiert ein vergleichendes Forschungsprojekt, das „abliterierte Modelle“ (HauhauCS, Heretic, Huihui) gegen Qwen 3/3.5 analysiert, mithilfe einer vollständigen forensischen Suite inklusive Benchmarks und Sicherheitsbewertungen. Ziel ist es, Behauptungen zu überprüfen, dass diese Modelle „verlustfrei unzensiert“ und vom Leser reproduzierbar sind.

42