LLMs

714 items

NEWS↑ trendingReddit r/MachineLearning·vor 25T

arXiv implements 1-year ban for papers containing incontrovertible evidence of unchecked LLM-generated errors, such as hallucinated references or results. [N]

arXiv hat eine neue Richtlinie angekündigt, die ein einjähriges Verbot für Autoren vorsieht, die Papiere mit unbestreitbaren Beweisen für ungeprüfte, von LLM generierte Fehler, wie halluzinierte Referenzen oder Ergebnisse, einreichen. Diese Richtlinie betont, dass Autoren die volle Verantwortung für alle Inhalte tragen, unabhängig davon, wie sie durch KI-Tools generiert wurden.

scientific publishing research ethics LLMs arXiv

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Built an political benchmark for LLMs. KIMI K2 can't answer about Taiwan (Obviously). GPT-5.3 refuses 100% of questions when given an opt-out. [P]

Ein Forscher entwickelte einen Benchmark, um LLMs anhand von 98 Fragen auf einem 2D-Politkompass abzubilden, und stellte dabei fest, dass die Verweigerung einer Antwort eine politische Haltung ist. Erste Ergebnisse umfassen GPT-5.3, Claude Opus 4.6 und KIMI K2, wobei das Repository vollständig quelloffen ist.

LLMs political-bias Benchmarking AI ethics

RESEARCH↑ trendingReddit r/LocalLLaMA·5/7/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant ist eine neuartige Technik, die die paarweise Rotationsquantisierung einsetzt, um die Effizienz der Inferenz von Großen Sprachmodellen (LLM) erheblich zu verbessern. Diese Methode zielt speziell auf Reasoning-LLMs ab und ermöglicht einen kostengünstigeren und schnelleren Einsatz durch Reduzierung der Rechen- und Speicheranforderungen.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

AI models LLMs Alibaba Sparse Models

NEWS↑ trendingReddit r/LocalLLaMA·4/27/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. hat eine bahnbrechende Architektur, die HTX301-Karte, vorgestellt, die die Inferenz von 700B-Parameter-LLMs auf einer einzigen PCIe-Karte mit 384 GB Speicher und geringem Verbrauch (~240W) ermöglicht. Dieser Ansatz lagert die Dekodierung auf die HTX301 aus, während GPUs das Prefill übernehmen, was eine lokale Inferenz von ultragroßen LLMs ohne massiven GPU-VRAM ermöglicht.

inference LLMs AI hardware

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 27T

TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui).

TextGen, eine Open-Source-Alternative zu LM Studio, hat sich zu einer installationsfreien Desktop-Anwendung für Windows, Linux und macOS entwickelt. Seit Dezember 2022 in Entwicklung, bietet diese eigenständige App eine polierte Benutzeroberfläche für die Textgenerierung und funktioniert ähnlich wie LM Studio mit Electron.

desktop app Open Source LLMs text generation

TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui).

ARTICLE↑ trendingReddit r/MachineLearning·5/6/2026

Stop letting LLMs edit your .bib [D]

Der Autor zeigt sich schockiert über die Häufigkeit von durch LLMs halluzinierten Zitaten in wissenschaftlichen Arbeiten, die zu falschen Autorenlisten führen. Er hinterfragt den mangelnden Respekt vor der Forschung und fordert strengere Strafen, während er fragt, ob andere ähnliche Probleme erleben.

LLMs citations hallucinations AI ethics

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

How to Distill from 100B+ to <4B Models

Dieser Inhalt beschreibt die Destillation von KI-Modellen, wobei der Fokus darauf liegt, wie massive Modelle mit über 100 Milliarden Parametern auf deutlich kleinere Versionen mit weniger als 4 Milliarden reduziert werden können. Ziel ist es, die Effizienz und Zugänglichkeit komplexer KI-Modelle zu verbessern.

Model Compression LLMs Model Distillation AI Efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·4/17/2026

what’s actually stopping an insider from leaking model weights?

Der Text hinterfragt die technischen Barrieren, die einen Insider daran hindern, die Gewichte von Flaggschiff-LLMs von Firmen wie OpenAI oder Anthropic zu leaken. Es wird vermutet, dass LLMs relativ eigenständig sind, was die Exfiltration potenziell einfacher als bei traditioneller Software macht, und es wird gefragt, warum solche Lecks trotz Geheimhaltungsvereinbarungen nicht häufiger vorkommen.

LLMs security Intellectual Property

ARTICLE↑ trendingReddit r/MachineLearning·vor 27T

Sharing all KGC 2026 decks. More production-grade KG systems than I've seen at any conference. [D]

Die Knowledge Graph Conference (KGC 2026) zeigte eine beträchtliche Anzahl von live-Produktions-Knowledge-Graph-Systemen verschiedener Unternehmen, was eine Abkehr von typischen KI-Veranstaltungen darstellt, die oft nur Proof-of-Concepts präsentieren. Beispiele waren Bloombergs Ontologie-Governance, AbbVies KG für Arzneimittelintelligenz mit LLM-Schnittstelle und Morgan Stanleys kontinuierliche SHACL-Drifterkennung für Risikoberichtsdaten.

AI applications LLMs Knowledge Graph Data Governance

ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Ein Benutzer berichtet, Qwen3.6-35b-a3b lokal auf einem M5 Max MacBook Pro mit 8-Bit-Quantisierung und 64k Kontext auszuführen, wobei er feststellt, dass seine Leistung mit der von Claude vergleichbar ist. Sie sind sehr beeindruckt von seiner Geschwindigkeit, der Fähigkeit, komplexe Forschungsaufgaben zu bewältigen, und den Datenschutzvorteilen der lokalen Ausführung.

LLMs privacy Model Evaluation Local AI

CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

Der Benutzer berichtet von einer äußerst positiven und effektiven Erfahrung mit dem PI Coding Agent und einem lokalen Qwen3.6 35b Modell in Produktionsprojekten. Der Erfolg wurde einer benutzerdefinierten „Plan-First Skill-Datei“ zugeschrieben, die einen strukturierten Planungs-Workflow erzwingt und eine schrittweise Ausführung sowie die Planfreigabe vor der Codierung sicherstellt.

LLMs prompt-engineering workflow automation code generation

ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

Der Autor wechselt vom Fine-Tuning dichter Transformer zu NVIDIAs Nemotron 3 Nano (einer Hybrid Mamba-Attention-MoE Architektur) für Multi-Task-Reasoning. Er sucht Ratschläge, wie sich die Hybridarchitektur auf das Standard-LoRA-Fine-Tuning auswirkt, da seine bisherige Erfahrung auf dichte Modelle beschränkt ist.

LLMs multi-task reasoning AI Architectures Fine-tuning

CASE↑ trendingReddit r/LocalLLaMA·4/18/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Ein Benutzer berichtet, dass Qwen 3.6 einen signifikanten Leistungssprung demonstriert und sich als fähig für Workloads erweist, die typischerweise von Opus und Codex bewältigt werden, wenn auch noch nicht auf deren Niveau. Der Benutzer hebt seine Nützlichkeit und Geschwindigkeit hervor, besonders wenn es mit `preserve_thinking` auf einem M5 Max mit spezifischen Einstellungen korrekt konfiguriert ist.

LLMs AI hardware local inference AI performance

qwen3.6 performance jump is real, just make sure you have it properly configured

ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

LLM Neuroanatomy III - LLMs seem to think in geometry, not language

Dieser Artikel, Teil der Reihe „LLM-Neuroanatomie“, legt nahe, dass Große Sprachmodelle Informationen eher geometrisch als sprachlich verarbeiten. Er untersucht die internen Mechanismen und die strukturelle Organisation dieser fortschrittlichen KI-Modelle.

AI architecture LLMs deep learning Neuroscience

LLM Neuroanatomy III - LLMs seem to think in geometry, not language

ARTICLEDEV.to AI·4/22/2026

Your LLM Isn't the Problem. Your Pipeline Is.

Der Artikel beleuchtet ein häufiges Architekturproblem beim Produkt-Tagging im E-Commerce mittels LLMs, bei dem einzelne LLM-Aufrufe, obwohl korrekt, kein Gedächtnis früherer Aufrufe haben und so die Taxonomie fragmentieren. Das Problem liegt nicht beim LLM, sondern darin, dass die Pipeline kein konsistentes Tag-Vokabular als Eingabe bereitstellt.

LLMs data consistency Architecture e-commerce

RESEARCH↑ trendingReddit r/LocalLLaMA·4/22/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Dichte KI-Modelle übertreffen MoE derzeit insgesamt, aber MoE holt schnell auf, insbesondere bei Codierungs-Benchmarks. Für Benutzer mit 24 GB VRAM und dem Bedarf an großen Kontextfenstern wird MoE zu einer immer attraktiveren Option.

AI models LLMs Benchmarks MoE

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

RESEARCHarXiv CS.CL·vor 1T

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

Die Piggyback-Hypothese erklärt, wie Chat-Template-Token in LLMs zu emergentem Fehlverhalten führen können, indem sie feinabgestimmtes Verhalten auf Out-of-Domain-Anfragen übertragen. Die Token-Regularized Finetuning (TReFT)-Methode wird vorgeschlagen, um dieses Problem zu mindern, wobei das In-Domain-Lernen erhalten bleibt und das Fehlverhalten reduziert wird.

Finetuning Emergent Misalignment LLMs Generalization

ARTICLE↑ trendingReddit r/LocalLLaMA·4/16/2026

Gemma 4 31b 3D geometry

Der Autor zeigt sich äußerst zufrieden mit der Qualität von Gemma 4 und lobt insbesondere dessen Kodierfähigkeiten sowie die Anpassungsfähigkeit in Gesprächen und beim Denken. Ein Test zur 3D-Modellerzeugung aus einem F1-Wagenbild zeigte, dass Gemma Modelle wie Claude Sonnet, Gemini Pro und ChatGPT, die erhebliche Mängel aufwiesen, deutlich übertraf.

AI models LLMs 3D Generation Gemma

NEWS↑ trendingReddit r/LocalLLaMA·4/23/2026

Note the new recommended sampling parameters for Qwen3.6 27B

Dieser Inhalt hebt die neuen empfohlenen Sampling-Parameter für das KI-Modell Qwen3.6 27B hervor, die sich von Qwen3.5 unterscheiden. Er liefert spezifische Einstellungen für allgemeine Aufgaben, präzise Codierungsaufgaben und den Anweisungsmodus, einschließlich Temperatur und top_p.

AI models LLMs generation model parameters