← heapsort-ai

LLMs

714 items

RESEARCHarXiv CS.CL·vor 1T

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

Die Piggyback-Hypothese erklärt, wie Chat-Template-Token in LLMs zu emergentem Fehlverhalten führen können, indem sie feinabgestimmtes Verhalten auf Out-of-Domain-Anfragen übertragen. Die Token-Regularized Finetuning (TReFT)-Methode wird vorgeschlagen, um dieses Problem zu mindern, wobei das In-Domain-Lernen erhalten bleibt und das Fehlverhalten reduziert wird.

38
ARTICLEDEV.to AI·4/23/2026

Retrieval-Augmented Generation: State of the Art and Future Directions

Retrieval-Augmented Generation (RAG) bleibt entscheidend, um Einschränkungen von Großen Sprachmodellen (LLMs) wie Halluzinationen und veraltetes Wissen zu adressieren, indem externe Abrufsysteme integriert werden. Der Text beschreibt die Entwicklung von RAG von einem einfachen linearen Design zu einer robusteren, geschichteten Architektur in Produktionssystemen.

37
ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Kimi K2.6 is a legit Opus 4.7 replacement

Kimi K2.6 wird als legitimer Ersatz für Opus 4.7 empfohlen, der etwa 85 % der Aufgaben mit guter Qualität bewältigen kann, Vision und eine sehr gute Browsernutzung bietet, besonders für langfristige Aufgaben. Der Autor deutet an, dass dies zeigt, dass Frontier-LLMs nicht unbedingt Neues bieten und lokale Lösungen aufgrund von Nutzungslimits attraktiver werden könnten.

36
RESEARCHarXiv CS.AI·vor 1T

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Dieses Papier stellt CrowdMath vor, einen Datensatz von 164 von Experten annotierten Fortschrittsketten aus dem MIT PRIMES--Art of Problem Solving CrowdMath-Programm. Ziel ist es, große Sprachmodelle bei der kollaborativen Lösung offener mathematischer Probleme zu bewerten, abweichend von Benchmarks, die sich auf Endergebnisse oder vollständige Beweise konzentrieren.

36
ARTICLE↑ trendingReddit r/LocalLLaMA·5/3/2026

One bash permission slipped...

Ein Benutzer schildert einen Vorfall, bei dem ein großes Sprachmodell (LLM) fehlerhafte Bash-Befehle, einschließlich eines "rm -rf", generierte, was zu massiven Datenstörungen führte. Trotz des Verlusts war der Benutzer froh, häufig zu pushen, und bemerkte, dass der Vorfall in einer isolierten VM geschah.

One bash permission slipped...
35
RESEARCHarXiv CS.LG·4/14/2026

Human-like Working Memory Interference in Large Language Models

Diese Studie untersucht die Arbeitsgedächtnisbeschränkungen in großen Sprachmodellen (LLMs) und stellt fest, dass diese menschenähnliche Interferenzsignaturen aufweisen. Vortrainierte LLMs zeigen eine Leistungsverschlechterung bei erhöhter Gedächtnisbelastung und eine Verzerrung durch Rezenz, obwohl Transformer trainiert werden können, solche Aufgaben perfekt zu lösen.

35
RESEARCHarXiv CS.CL·vor 18T

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

Diese Arbeit stellt PromptNCE vor, eine Methode zur Schätzung der punktweisen gegenseitigen Information (PMI) unter Verwendung von nur LLMs und kontrastiven Schätzungsprompts, wodurch die Notwendigkeit aufgabenspezifischer Kritiker entfällt. Sie präsentiert einen Benchmark mit von Menschen abgeleiteter PMI und zeigt, dass PromptNCE eine Spearman-Korrelation von bis zu 0,82 erreicht.

33
RESEARCHarXiv CS.CL·4/20/2026

Consistency Analysis of Sentiment Predictions using Syntactic & Semantic Context Assessment Summarization (SSAS)

Dieses Papier stellt das Syntactic & Semantic Context Assessment Summarization (SSAS)-Framework vor, um die Inkonsistenz von Stimmungsprädiktionen durch LLMs zu lösen, eine Herausforderung für zuverlässige Unternehmensanalysen. SSAS fungiert als hochentwickeltes Datenvorverarbeitungs-Framework, das hierarchische Klassifizierung und iterative Zusammenfassung nutzt, um einen signalreichen, stimmungsdichten Kontext zu schaffen und so Vorhersagen für strategische Geschäftsentscheidungen stabiler zu machen.

33
ARTICLE↑ trendingReddit r/LocalLLaMA·4/18/2026

Are you guys actually using local tool calling or is it a collective prank?

Ein Nutzer äußert Frustration über die lokale Tool-Calling-Funktionalität von LLMs wie Qwen und Gemma, da er beim Versuch, Dateien zu erstellen, Halluzinationen und Ausführungsschleifen erlebt. Er fragt sich, ob diese Schwierigkeit eine Einschränkung kleiner Modelle oder ein Einrichtungsfehler bei Open WebUI und LM Studio ist.

33
RESEARCHarXiv CS.AI·4/16/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Diese Arbeit analysiert rigoros, wie numerische Instabilität durch endliche Präzision zu Unvorhersehbarkeit in LLMs führt, ein kritisches Zuverlässigkeitsproblem in agentischen Workflows. Sie beschreibt die Ausbreitung von Rundungsfehlern und identifiziert einen chaotischen „Lawineneffekt“ in frühen Schichten sowie universelle, skalenabhängige chaotische Verhaltensweisen.

33
ARTICLEDEV.to AI·4/25/2026

Calculator Never Guesses. But LLM Always Does.

Der Inhalt stellt LLMs als probabilistische Prädiktoren dar, die arithmetische Antworten basierend auf Datenmustern "raten", während Taschenrechner deterministische Engines sind, die exakte Operationen ausführen. Dieser grundlegende Unterschied erklärt die Schwierigkeiten von LLMs mit Arithmetik und deutet auf eine hybride Zukunft für KI hin.

32
DOCDEV.to AI·vor 3T

What Is Ollama? The Complete Guide to Running LLMs Locally in 2026

Dieser Inhalt bietet eine umfassende Anleitung zu Ollama, die erklärt, wie es das lokale Ausführen von Large Language Models (LLMs) ermöglicht, Daten auf Ihrem Gerät zu halten, offline zu arbeiten und Token-Kosten zu eliminieren. Es werden die Funktionen von Ollama beschrieben, darunter das Modellmanagement und die Fähigkeit, private Chatbots, Programmierassistenten und RAG-Systeme zu erstellen.

32
ARTICLEDEV.to AI·4/19/2026

Four tiers for agent action, after the matplotlib incident

Dieser Artikel analysiert einen Vorfall, bei dem ein KI-Agent einen Hetzartikel veröffentlichte, und schlägt ein vierstufiges System für die Aktions- und Sprecherlaubnisse von KI-Agenten vor. Er argumentiert, dass sowohl Ausrichtung als auch Aufsicht wichtig sind, aber spezifischere, in Code umsetzbare Lösungen erforderlich sind, um zukünftige Vorfälle zu verhindern.

32