← heapsort-ai

LLMs

714 items

NEWS↑ trendingReddit r/MachineLearning·vor 25T

arXiv implements 1-year ban for papers containing incontrovertible evidence of unchecked LLM-generated errors, such as hallucinated references or results. [N]

arXiv hat eine neue Richtlinie angekündigt, die ein einjähriges Verbot für Autoren vorsieht, die Papiere mit unbestreitbaren Beweisen für ungeprüfte, von LLM generierte Fehler, wie halluzinierte Referenzen oder Ergebnisse, einreichen. Diese Richtlinie betont, dass Autoren die volle Verantwortung für alle Inhalte tragen, unabhängig davon, wie sie durch KI-Tools generiert wurden.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Built an political benchmark for LLMs. KIMI K2 can't answer about Taiwan (Obviously). GPT-5.3 refuses 100% of questions when given an opt-out. [P]

Ein Forscher entwickelte einen Benchmark, um LLMs anhand von 98 Fragen auf einem 2D-Politkompass abzubilden, und stellte dabei fest, dass die Verweigerung einer Antwort eine politische Haltung ist. Erste Ergebnisse umfassen GPT-5.3, Claude Opus 4.6 und KIMI K2, wobei das Repository vollständig quelloffen ist.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·5/7/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant ist eine neuartige Technik, die die paarweise Rotationsquantisierung einsetzt, um die Effizienz der Inferenz von Großen Sprachmodellen (LLM) erheblich zu verbessern. Diese Methode zielt speziell auf Reasoning-LLMs ab und ermöglicht einen kostengünstigeren und schnelleren Einsatz durch Reduzierung der Rechen- und Speicheranforderungen.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

42
NEWS↑ trendingReddit r/LocalLLaMA·4/27/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. hat eine bahnbrechende Architektur, die HTX301-Karte, vorgestellt, die die Inferenz von 700B-Parameter-LLMs auf einer einzigen PCIe-Karte mit 384 GB Speicher und geringem Verbrauch (~240W) ermöglicht. Dieser Ansatz lagert die Dekodierung auf die HTX301 aus, während GPUs das Prefill übernehmen, was eine lokale Inferenz von ultragroßen LLMs ohne massiven GPU-VRAM ermöglicht.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 27T

TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui).

TextGen, eine Open-Source-Alternative zu LM Studio, hat sich zu einer installationsfreien Desktop-Anwendung für Windows, Linux und macOS entwickelt. Seit Dezember 2022 in Entwicklung, bietet diese eigenständige App eine polierte Benutzeroberfläche für die Textgenerierung und funktioniert ähnlich wie LM Studio mit Electron.

TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui).
42
ARTICLE↑ trendingReddit r/MachineLearning·5/6/2026

Stop letting LLMs edit your .bib [D]

Der Autor zeigt sich schockiert über die Häufigkeit von durch LLMs halluzinierten Zitaten in wissenschaftlichen Arbeiten, die zu falschen Autorenlisten führen. Er hinterfragt den mangelnden Respekt vor der Forschung und fordert strengere Strafen, während er fragt, ob andere ähnliche Probleme erleben.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

How to Distill from 100B+ to <4B Models

Dieser Inhalt beschreibt die Destillation von KI-Modellen, wobei der Fokus darauf liegt, wie massive Modelle mit über 100 Milliarden Parametern auf deutlich kleinere Versionen mit weniger als 4 Milliarden reduziert werden können. Ziel ist es, die Effizienz und Zugänglichkeit komplexer KI-Modelle zu verbessern.

How to Distill from 100B+ to <4B Models
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/17/2026

what’s actually stopping an insider from leaking model weights?

Der Text hinterfragt die technischen Barrieren, die einen Insider daran hindern, die Gewichte von Flaggschiff-LLMs von Firmen wie OpenAI oder Anthropic zu leaken. Es wird vermutet, dass LLMs relativ eigenständig sind, was die Exfiltration potenziell einfacher als bei traditioneller Software macht, und es wird gefragt, warum solche Lecks trotz Geheimhaltungsvereinbarungen nicht häufiger vorkommen.

42
ARTICLE↑ trendingReddit r/MachineLearning·vor 27T

Sharing all KGC 2026 decks. More production-grade KG systems than I've seen at any conference. [D]

Die Knowledge Graph Conference (KGC 2026) zeigte eine beträchtliche Anzahl von live-Produktions-Knowledge-Graph-Systemen verschiedener Unternehmen, was eine Abkehr von typischen KI-Veranstaltungen darstellt, die oft nur Proof-of-Concepts präsentieren. Beispiele waren Bloombergs Ontologie-Governance, AbbVies KG für Arzneimittelintelligenz mit LLM-Schnittstelle und Morgan Stanleys kontinuierliche SHACL-Drifterkennung für Risikoberichtsdaten.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Ein Benutzer berichtet, Qwen3.6-35b-a3b lokal auf einem M5 Max MacBook Pro mit 8-Bit-Quantisierung und 64k Kontext auszuführen, wobei er feststellt, dass seine Leistung mit der von Claude vergleichbar ist. Sie sind sehr beeindruckt von seiner Geschwindigkeit, der Fähigkeit, komplexe Forschungsaufgaben zu bewältigen, und den Datenschutzvorteilen der lokalen Ausführung.

42
CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

Der Benutzer berichtet von einer äußerst positiven und effektiven Erfahrung mit dem PI Coding Agent und einem lokalen Qwen3.6 35b Modell in Produktionsprojekten. Der Erfolg wurde einer benutzerdefinierten „Plan-First Skill-Datei“ zugeschrieben, die einen strukturierten Planungs-Workflow erzwingt und eine schrittweise Ausführung sowie die Planfreigabe vor der Codierung sicherstellt.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

Der Autor wechselt vom Fine-Tuning dichter Transformer zu NVIDIAs Nemotron 3 Nano (einer Hybrid Mamba-Attention-MoE Architektur) für Multi-Task-Reasoning. Er sucht Ratschläge, wie sich die Hybridarchitektur auf das Standard-LoRA-Fine-Tuning auswirkt, da seine bisherige Erfahrung auf dichte Modelle beschränkt ist.

42
CASE↑ trendingReddit r/LocalLLaMA·4/18/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Ein Benutzer berichtet, dass Qwen 3.6 einen signifikanten Leistungssprung demonstriert und sich als fähig für Workloads erweist, die typischerweise von Opus und Codex bewältigt werden, wenn auch noch nicht auf deren Niveau. Der Benutzer hebt seine Nützlichkeit und Geschwindigkeit hervor, besonders wenn es mit `preserve_thinking` auf einem M5 Max mit spezifischen Einstellungen korrekt konfiguriert ist.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
ARTICLEDEV.to AI·4/22/2026

Your LLM Isn't the Problem. Your Pipeline Is.

Der Artikel beleuchtet ein häufiges Architekturproblem beim Produkt-Tagging im E-Commerce mittels LLMs, bei dem einzelne LLM-Aufrufe, obwohl korrekt, kein Gedächtnis früherer Aufrufe haben und so die Taxonomie fragmentieren. Das Problem liegt nicht beim LLM, sondern darin, dass die Pipeline kein konsistentes Tag-Vokabular als Eingabe bereitstellt.

42
RESEARCHarXiv CS.CL·vor 1T

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

Die Piggyback-Hypothese erklärt, wie Chat-Template-Token in LLMs zu emergentem Fehlverhalten führen können, indem sie feinabgestimmtes Verhalten auf Out-of-Domain-Anfragen übertragen. Die Token-Regularized Finetuning (TReFT)-Methode wird vorgeschlagen, um dieses Problem zu mindern, wobei das In-Domain-Lernen erhalten bleibt und das Fehlverhalten reduziert wird.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·4/16/2026

Gemma 4 31b 3D geometry

Der Autor zeigt sich äußerst zufrieden mit der Qualität von Gemma 4 und lobt insbesondere dessen Kodierfähigkeiten sowie die Anpassungsfähigkeit in Gesprächen und beim Denken. Ein Test zur 3D-Modellerzeugung aus einem F1-Wagenbild zeigte, dass Gemma Modelle wie Claude Sonnet, Gemini Pro und ChatGPT, die erhebliche Mängel aufwiesen, deutlich übertraf.

Gemma 4 31b 3D geometry
41