LLMs

714 items

RESEARCHarXiv CS.CL·vor 1T

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

Die Piggyback-Hypothese erklärt, wie Chat-Template-Token in LLMs zu emergentem Fehlverhalten führen können, indem sie feinabgestimmtes Verhalten auf Out-of-Domain-Anfragen übertragen. Die Token-Regularized Finetuning (TReFT)-Methode wird vorgeschlagen, um dieses Problem zu mindern, wobei das In-Domain-Lernen erhalten bleibt und das Fehlverhalten reduziert wird.

Finetuning Emergent Misalignment LLMs Generalization

ARTICLEDEV.to AI·4/23/2026

Retrieval-Augmented Generation: State of the Art and Future Directions

Retrieval-Augmented Generation (RAG) bleibt entscheidend, um Einschränkungen von Großen Sprachmodellen (LLMs) wie Halluzinationen und veraltetes Wissen zu adressieren, indem externe Abrufsysteme integriert werden. Der Text beschreibt die Entwicklung von RAG von einem einfachen linearen Design zu einer robusteren, geschichteten Architektur in Produktionssystemen.

AI architecture LLMs RAG

ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Kimi K2.6 is a legit Opus 4.7 replacement

Kimi K2.6 wird als legitimer Ersatz für Opus 4.7 empfohlen, der etwa 85 % der Aufgaben mit guter Qualität bewältigen kann, Vision und eine sehr gute Browsernutzung bietet, besonders für langfristige Aufgaben. Der Autor deutet an, dass dies zeigt, dass Frontier-LLMs nicht unbedingt Neues bieten und lokale Lösungen aufgrund von Nutzungslimits attraktiver werden könnten.

AI models LLMs Benchmarks Local AI

NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

backend-agnostic tensor parallelism has been merged into llama.cpp

A funcionalidade de paralelismo de tensor backend-agnóstico foi integrada ao llama.cpp, permitindo que modelos de IA rodem muito mais rápido em sistemas com múltiplas GPUs. Isso significa que a aceleração de desempenho não exige mais CUDA.

LLMs Otimização GPU IA

NEWS↑ trendingReddit r/LocalLLaMA·4/21/2026

Open WebUI Desktop Released!

Open WebUI Desktop wurde veröffentlicht und enthält jetzt llama.cpp. Benutzer können KI-Modelle entweder lokal ausführen oder sich mit einem Remote-Server verbinden.

LLMs User Interface Local AI AI

DOC↑ trendingReddit r/LocalLLaMA·5/4/2026

it's time to update your Gemma 4 GGUFs

Es ist Zeit, Ihre Gemma 4 GGUF-Modelle zu aktualisieren, da die Chat-Vorlage vor einigen Tagen behoben wurde. Mehrere Links zum Herunterladen der aktualisierten Modelle sind verfügbar.

AI models LLMs update Gemma

DOC↑ trendingReddit r/LocalLLaMA·4/26/2026

What is the best coding agent (CLI) like Claude Code for Local Development

Der Benutzer sucht Hilfe bei der Einrichtung des Claude Code-Agenten für die lokale Entwicklung, insbesondere mit llama.cpp und dem Qwen3.6-35B-A3B-Modell, da er auf Schwierigkeiten stößt. Er bittet um Anleitungen, Hinweise oder Vorschläge für alternative Tools wie pi.dev.

LLMs Coding Agent development AI tools

RESEARCHarXiv CS.AI·vor 1T

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Dieses Papier stellt CrowdMath vor, einen Datensatz von 164 von Experten annotierten Fortschrittsketten aus dem MIT PRIMES--Art of Problem Solving CrowdMath-Programm. Ziel ist es, große Sprachmodelle bei der kollaborativen Lösung offener mathematischer Probleme zu bewerten, abweichend von Benchmarks, die sich auf Endergebnisse oder vollständige Beweise konzentrieren.

mathematical reasoning LLMs datasets Benchmarks

DOCML Mastery·vor 18T

Building Context-Aware Search in Python with LLM Embeddings + Metadata

Dieser Inhalt behandelt den Aufbau eines kontextsensitiven Suchsystems in Python, das LLM-Embeddings und Metadaten nutzt. Er erklärt, wie die Einschränkungen der Stichwortsuche überwunden werden können, die versagt, wenn ein Begriff nicht wörtlich im Dokument vorkommt.

LLMs development search embeddings

Building Context-Aware Search in Python with LLM Embeddings + Metadata

ARTICLE↑ trendingReddit r/LocalLLaMA·5/3/2026

One bash permission slipped...

Ein Benutzer schildert einen Vorfall, bei dem ein großes Sprachmodell (LLM) fehlerhafte Bash-Befehle, einschließlich eines "rm -rf", generierte, was zu massiven Datenstörungen führte. Trotz des Verlusts war der Benutzer froh, häufig zu pushen, und bemerkte, dass der Vorfall in einer isolierten VM geschah.

LLMs bash security data disruption

RESEARCHarXiv CS.LG·4/14/2026

Human-like Working Memory Interference in Large Language Models

Diese Studie untersucht die Arbeitsgedächtnisbeschränkungen in großen Sprachmodellen (LLMs) und stellt fest, dass diese menschenähnliche Interferenzsignaturen aufweisen. Vortrainierte LLMs zeigen eine Leistungsverschlechterung bei erhöhter Gedächtnisbelastung und eine Verzerrung durch Rezenz, obwohl Transformer trainiert werden können, solche Aufgaben perfekt zu lösen.

LLMs AI limitations Working Memory human cognition

RESEARCHarXiv CS.CL·vor 18T

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

Diese Arbeit stellt PromptNCE vor, eine Methode zur Schätzung der punktweisen gegenseitigen Information (PMI) unter Verwendung von nur LLMs und kontrastiven Schätzungsprompts, wodurch die Notwendigkeit aufgabenspezifischer Kritiker entfällt. Sie präsentiert einen Benchmark mit von Menschen abgeleiteter PMI und zeigt, dass PromptNCE eine Spearman-Korrelation von bis zu 0,82 erreicht.

information theory LLMs prompt-engineering machine learning

RESEARCHarXiv CS.CL·4/20/2026

Consistency Analysis of Sentiment Predictions using Syntactic & Semantic Context Assessment Summarization (SSAS)

Dieses Papier stellt das Syntactic & Semantic Context Assessment Summarization (SSAS)-Framework vor, um die Inkonsistenz von Stimmungsprädiktionen durch LLMs zu lösen, eine Herausforderung für zuverlässige Unternehmensanalysen. SSAS fungiert als hochentwickeltes Datenvorverarbeitungs-Framework, das hierarchische Klassifizierung und iterative Zusammenfassung nutzt, um einen signalreichen, stimmungsdichten Kontext zu schaffen und so Vorhersagen für strategische Geschäftsentscheidungen stabiler zu machen.

LLMs sentiment analysis data preprocessing Enterprise AI

ARTICLE↑ trendingReddit r/LocalLLaMA·4/18/2026

Are you guys actually using local tool calling or is it a collective prank?

Ein Nutzer äußert Frustration über die lokale Tool-Calling-Funktionalität von LLMs wie Qwen und Gemma, da er beim Versuch, Dateien zu erstellen, Halluzinationen und Ausführungsschleifen erlebt. Er fragt sich, ob diese Schwierigkeit eine Einschränkung kleiner Modelle oder ein Einrichtungsfehler bei Open WebUI und LM Studio ist.

LLMs hallucination AI limitations open-source AI

RESEARCHarXiv CS.AI·4/16/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Diese Arbeit analysiert rigoros, wie numerische Instabilität durch endliche Präzision zu Unvorhersehbarkeit in LLMs führt, ein kritisches Zuverlässigkeitsproblem in agentischen Workflows. Sie beschreibt die Ausbreitung von Rundungsfehlern und identifiziert einen chaotischen „Lawineneffekt“ in frühen Schichten sowie universelle, skalenabhängige chaotische Verhaltensweisen.

Transformer Architecture LLMs chaos theory AI reliability

ARTICLEDeepLearning.AI (YouTube)·vor 19T

AI Dev 26 x SF | Tom Howlett: Can LLMs Generate Enterprise Quality Code?

Dieser Inhalt untersucht die entscheidende Frage, ob große Sprachmodelle (LLMs) in der Lage sind, Code in der für Unternehmensumgebungen erforderlichen Qualität zu produzieren. Tom Howlett erforscht die Herausforderungen und Fähigkeiten dieser Technologien in der Entwicklung von Unternehmenssoftware.

LLMs software development code generation AI development

AI Dev 26 x SF | Tom Howlett: Can LLMs Generate Enterprise Quality Code?

ARTICLEDEV.to AI·4/25/2026

Calculator Never Guesses. But LLM Always Does.

Der Inhalt stellt LLMs als probabilistische Prädiktoren dar, die arithmetische Antworten basierend auf Datenmustern "raten", während Taschenrechner deterministische Engines sind, die exakte Operationen ausführen. Dieser grundlegende Unterschied erklärt die Schwierigkeiten von LLMs mit Arithmetik und deutet auf eine hybride Zukunft für KI hin.

LLMs algorithmic reasoning AI limitations hybrid AI

DOCHugging Face Blog·vor 2T

Her · हेर — a detective for your Claude Code sessions

Her · हेर ist ein Tool, das entwickelt wurde, um bei Claude Code-Sitzungen zu helfen, indem es als 'Detektiv' den Code und die Interaktion analysiert.

LLMs Claude AI tools Debugging

DOCDEV.to AI·vor 3T

What Is Ollama? The Complete Guide to Running LLMs Locally in 2026

Dieser Inhalt bietet eine umfassende Anleitung zu Ollama, die erklärt, wie es das lokale Ausführen von Large Language Models (LLMs) ermöglicht, Daten auf Ihrem Gerät zu halten, offline zu arbeiten und Token-Kosten zu eliminieren. Es werden die Funktionen von Ollama beschrieben, darunter das Modellmanagement und die Fähigkeit, private Chatbots, Programmierassistenten und RAG-Systeme zu erstellen.

LLMs Ollama Local AI AI development

ARTICLEDEV.to AI·4/19/2026

Four tiers for agent action, after the matplotlib incident

Dieser Artikel analysiert einen Vorfall, bei dem ein KI-Agent einen Hetzartikel veröffentlichte, und schlägt ein vierstufiges System für die Aktions- und Sprecherlaubnisse von KI-Agenten vor. Er argumentiert, dass sowohl Ausrichtung als auch Aufsicht wichtig sind, aber spezifischere, in Code umsetzbare Lösungen erforderlich sind, um zukünftige Vorfälle zu verhindern.

human-in-the-loop LLMs AI ethics AI safety