language models

103 items

RESEARCHarXiv CS.CL·vor 1T

Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

Dieses Papier stellt das On-Policy Diffusion Language Model (OPDLM) vor, um autoregressive Modelle (ARLMs) in Diffusions-Sprachmodelle (DLMs) umzuwandeln. Es befasst sich mit Problemen wie Wissensverlust und der Diskrepanz zwischen Training und Inferenz durch den Einsatz von On-Policy Distillation (OPD).

Diffusion Models language models AI models machine learning

NEWS↑ trendingReddit r/LocalLLaMA·4/17/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML hat Ternary Bonsai angekündigt, eine neue Familie von 1,58-Bit-Sprachmodellen, die strenge Speichereinschränkungen mit hoher Genauigkeit ausbalancieren. Diese Modelle, erhältlich in Größen von 8B, 4B und 1,7B, erreichen einen 9-mal kleineren Speicherbedarf als 16-Bit-Modelle und übertreffen dabei die meisten ihrer Konkurrenten.

Model Compression language models Efficient AI

Ternary Bonsai: Top intelligence at 1.58 bits

RESEARCH↑ trendingReddit r/LocalLLaMA·vor 27T

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

SenseNova U1 ist eine neue Serie nativer multimodaler Modelle, die multimodales Verstehen, Schlussfolgern und Generieren in einer monolithischen Architektur vereint. Diese innovativen Modelle denken und handeln nativ über Sprache und Vision hinweg und markieren einen grundlegenden Paradigmenwechsel in der multimodalen KI.

language models multimodal AI unified architecture SenseNova

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

ARTICLE↑ trendingReddit r/MachineLearning·4/21/2026

Bulding my own Diffusion Language Model from scratch was easier than I thought [P]

Der Autor hat ein Diffusions-Sprachmodell von Grund auf neu entwickelt, um komplexe Konzepte besser zu verstehen, ohne die Hilfe von KI-generiertem Code. Er trainierte das 7,5M-Parameter-Modell mit dem winzigen Shakespeare-Datensatz und teilte den Code auf GitHub.

Diffusion Models language models personal-project machine learning

RESEARCHarXiv CS.CL·vor 1T

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Fehler im Sprachmodell-Denken entstehen durch unterschiedliche Prozesse, die identifizierbare Token-Level-Signaturen hinterlassen. Diese Fehler werden als „festgelegter Fehler“ oder „anhaltende Unsicherheit“ charakterisiert, und das Verständnis dieser Signaturen hilft, fehlerhafte von erfolgreichen Vervollständigungen in verschiedenen Konfigurationen zu unterscheiden.

language models research Reasoning AI failures

ARTICLEKDNuggets·vor 4T

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

Dieser Inhalt untersucht drei Post-hoc-Methoden – Platt Scaling, Isotonic Regression und Temperature Scaling –, die darauf abzielen, die Kalibrierung von Sprachmodellen zu verbessern. Diese Techniken sollen die Diskrepanz zwischen der vorhergesagten Konfidenz eines Modells und seiner tatsächlichen Genauigkeit verringern.

language models Calibration learning machine learning

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

RESEARCHarXiv CS.CL·4/22/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Dieses Papier schlägt eine neue Technik, das Token-to-Mask (T2M) Remasking, zur Verfeinerung maskierter Diffusions-Sprachmodelle wie LLaDA2.1 vor. Die Methode behebt die Mängel der Token-to-Token (T2T)-Bearbeitung, indem sie verdächtige Token in einen Maskierungszustand zurücksetzt, was eine genauere Neuprädiktion ermöglicht.

Diffusion Models language models error correction natural language processing

RESEARCHarXiv CS.LG·vor 5T

Self-Distilled Policy Gradient

Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.

language models deep learning reinforcement learning Policy Gradient

RESEARCHarXiv CS.CL·vor 14T

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue

Dieser Artikel stellt AERIC vor, einen neuen Hidden-State-Ansatz zur vorausschauenden Same-Pass-Überwachung von implizit schädlichen Dialogen in Sprachmodellen. Ziel ist es, potenzielle Risiken frühzeitig zu erkennen, um die Exposition gegenüber schädlichen Fortsetzungen zu vermeiden.

harmful dialogue language models security AI safety

RESEARCHarXiv CS.CL·vor 4T

Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

Dieser Artikel stellt ein hybrides Vor-Trainingsziel für Text-Encoder vor, das einen JEPA-ähnlichen Verlust für die Vorhersage im latenten Raum mit einem Standard-Masked Language Modelling (MLM)-Ziel kombiniert. Dieser neue Ansatz zielt darauf ab, Repräsentationen zu fördern, die an tiefere semantische Strukturen gebunden sind, anstatt nur an die oberflächliche Token-Identität, und zeigt deutlich uniformere Embeddings.

language models deep learning self-supervised learning machine learning

RESEARCHarXiv CS.CL·vor 4T

Generic Triple-Latent Compression with Gated Associative Retrieval

Diese Forschung stellt generische Triple-Latent-Sequenzmodelle vor, die einen laufenden Token-Zustand und einen komprimierten Paar-Speicherweg nutzen, um Token-Interaktionen höherer Ordnung zu erfassen. Diese Modelle zeigen Verbesserungen gegenüber einer Transformer-Baseline auf Sprachmodell-Benchmarks, obwohl eine Abruf-Erweiterung den assoziativen Abruf verbessert, aber langsamer ist.

language models latent models sequence models associative retrieval

RESEARCHDEV.to AI·4/13/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) konzentriert sich auf die Integration externer Werkzeuge mit großen Sprachmodellen, um deren Fähigkeiten zu erweitern. Dieser Ansatz ermöglicht es LLMs, komplexe Aufgaben effektiver zu bewältigen, indem sie spezialisierte Funktionen und reale Interaktionen nutzen.

language models LLMs NLP Tool Augmentation

RESEARCHarXiv CS.CL·vor 19T

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Diese Forschung untersucht, ob reale Datenskalierungsgesetze durch eine progressive Abdeckung eines latenten prädiktiven Beitragsspektrums und nicht nur durch die Token-Frequenz bestimmt werden. Mithilfe eines Suffix-Automaten und eines globalen KL-Prädiktionsbeitragsspektrums findet die Studie eine starke Korrelation zwischen der Steigung des Spektrumsendes und dem Daten-Skalierungsexponenten von GPT-Lernenden, was zeigt, dass der effektive Trunkierungsrang logarithmisch skaliert.

language models data scaling machine learning predictive models

RESEARCHarXiv CS.CL·4/13/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

Diese Arbeit enthüllt eine kritische Schwachstelle in diffusionsbasierten Sprachmodellen (dLLMs), deren Sicherheitsausrichtung, basierend auf monotonen Entrauschungsplänen, leicht umgangen werden kann. Durch das Neumaskieren von Ablehnungs-Tokens und das Injizieren eines bejahenden Präfixes erzielten Forscher hohe Angriffserfolgsraten gegen prominente dLLMs und legten damit einen strukturellen Fehler offen.

Diffusion Models language models vulnerability Exploitation

RESEARCHarXiv CS.AI·vor 20T

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Dieses Papier stellt Learn-by-Wire Guard (LBW-Guard) vor, eine autonome Trainingssteuerungs-Governance-Schicht für Sprachmodelle. Es zielt darauf ab, die Trainingsstabilität und -effizienz zu verbessern und die finale Perplexität erheblich zu reduzieren.

language models deep learning AI training model stability

RESEARCHarXiv CS.CL·4/24/2026

GRISP: Guided Recurrent IRI Selection over SPARQL Skeletons

GRISP ist eine neuartige SPARQL-basierte Frage-Antwort-Methode über Wissensgraphen, die ein kleines Sprachmodell (SLM) feinabstimmt. Sie generiert SPARQL-Abfrageskelette aus natürlichsprachigen Fragen und verfeinert diese iterativ durch Auswahl von Wissensgraphen-Elementen, wodurch sie Spitzenleistungen auf Wikidata- und Freebase-Benchmarks erzielt.

language models Knowledge Graphs SPARQL Question Answering

RESEARCHarXiv CS.AI·vor 29T

When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment

Diese Forschung führt eine Theorie der "Stabilisierung der endlichen Antwortpräferenz" ein, um zu bestimmen, wann die Antwortpräferenz eines Sprachmodells stabil wird. Es zeigt sich, dass diese Stabilisierung oft vor der verbalisierbaren Antwort erfolgt, mit einem deutlichen Vorlauf.

language models cognitive science machine learning NLP

RESEARCHarXiv CS.CL·vor 22T

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Dieses Papier präsentiert eine umfassende Analyse neuronaler Aktivierungsmuster in sechs verschiedenen Architekturen großer Sprachmodelle (LLM), wobei deren Leistung bei zwölf kognitiven Aufgabenkategorien untersucht wird. Die Ergebnisse offenbaren grundlegende Unterschiede in der Verarbeitung vielfältiger kognitiver Aufgaben durch Encoder- und Decoder-Architekturen, wobei mathematisches Denken die höchste Aufmerksamkeitsentropie erzeugt und Decoder-Modelle signifikant höhere Sparsity aufweisen.

neural networks language models cognitive science Model Analysis

RESEARCHarXiv CS.LG·vor 15T

The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

Diese Forschungsstudie zeigt, dass kleine, anweisungsorientierte Sprachmodelle (LMs), die Chain-of-Thought (CoT) für Arithmetik verwenden, oft eine positionale Abkürzung nutzen, indem sie die Zahl kopieren, die die letzte Position vor dem Antwortbegrenzer einnimmt. Diese Abkürzung dominiert, selbst wenn die Zwischenschritte korrekt sind, was die Antwortgenauigkeit erheblich beeinflusst.

language models CoT Prompting Arithmetic

RESEARCHarXiv CS.CL·vor 5T

Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models

Diese Studie untersucht den Einfluss von Diskursrollen-Etiketten wie "Referenz" oder "Anweisung" auf das Verhalten von Sprachmodellen. Es zeigt sich, dass sich die Adoptionsrate irreführender Informationen je nach Etikett erheblich verschieben kann (56-84 Prozentpunkte), wobei Etiketten wie "Anweisung" die Adoption erhöhen und "Beispiel" sie konstant unterdrückt.

language models Context NLP model behavior