← heapsort-ai

language models

103 items

NEWS↑ trendingReddit r/LocalLLaMA·4/17/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML hat Ternary Bonsai angekündigt, eine neue Familie von 1,58-Bit-Sprachmodellen, die strenge Speichereinschränkungen mit hoher Genauigkeit ausbalancieren. Diese Modelle, erhältlich in Größen von 8B, 4B und 1,7B, erreichen einen 9-mal kleineren Speicherbedarf als 16-Bit-Modelle und übertreffen dabei die meisten ihrer Konkurrenten.

Ternary Bonsai: Top intelligence at 1.58 bits
50
RESEARCHarXiv CS.CL·vor 1T

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Fehler im Sprachmodell-Denken entstehen durch unterschiedliche Prozesse, die identifizierbare Token-Level-Signaturen hinterlassen. Diese Fehler werden als „festgelegter Fehler“ oder „anhaltende Unsicherheit“ charakterisiert, und das Verständnis dieser Signaturen hilft, fehlerhafte von erfolgreichen Vervollständigungen in verschiedenen Konfigurationen zu unterscheiden.

40
ARTICLEKDNuggets·vor 4T

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

Dieser Inhalt untersucht drei Post-hoc-Methoden – Platt Scaling, Isotonic Regression und Temperature Scaling –, die darauf abzielen, die Kalibrierung von Sprachmodellen zu verbessern. Diese Techniken sollen die Diskrepanz zwischen der vorhergesagten Konfidenz eines Modells und seiner tatsächlichen Genauigkeit verringern.

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling
34
RESEARCHarXiv CS.CL·4/22/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Dieses Papier schlägt eine neue Technik, das Token-to-Mask (T2M) Remasking, zur Verfeinerung maskierter Diffusions-Sprachmodelle wie LLaDA2.1 vor. Die Methode behebt die Mängel der Token-to-Token (T2T)-Bearbeitung, indem sie verdächtige Token in einen Maskierungszustand zurücksetzt, was eine genauere Neuprädiktion ermöglicht.

32
RESEARCHarXiv CS.LG·vor 5T

Self-Distilled Policy Gradient

Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.

31
RESEARCHarXiv CS.CL·vor 4T

Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

Dieser Artikel stellt ein hybrides Vor-Trainingsziel für Text-Encoder vor, das einen JEPA-ähnlichen Verlust für die Vorhersage im latenten Raum mit einem Standard-Masked Language Modelling (MLM)-Ziel kombiniert. Dieser neue Ansatz zielt darauf ab, Repräsentationen zu fördern, die an tiefere semantische Strukturen gebunden sind, anstatt nur an die oberflächliche Token-Identität, und zeigt deutlich uniformere Embeddings.

30
RESEARCHarXiv CS.CL·vor 4T

Generic Triple-Latent Compression with Gated Associative Retrieval

Diese Forschung stellt generische Triple-Latent-Sequenzmodelle vor, die einen laufenden Token-Zustand und einen komprimierten Paar-Speicherweg nutzen, um Token-Interaktionen höherer Ordnung zu erfassen. Diese Modelle zeigen Verbesserungen gegenüber einer Transformer-Baseline auf Sprachmodell-Benchmarks, obwohl eine Abruf-Erweiterung den assoziativen Abruf verbessert, aber langsamer ist.

30
RESEARCHDEV.to AI·4/13/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) konzentriert sich auf die Integration externer Werkzeuge mit großen Sprachmodellen, um deren Fähigkeiten zu erweitern. Dieser Ansatz ermöglicht es LLMs, komplexe Aufgaben effektiver zu bewältigen, indem sie spezialisierte Funktionen und reale Interaktionen nutzen.

30
RESEARCHarXiv CS.CL·vor 19T

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Diese Forschung untersucht, ob reale Datenskalierungsgesetze durch eine progressive Abdeckung eines latenten prädiktiven Beitragsspektrums und nicht nur durch die Token-Frequenz bestimmt werden. Mithilfe eines Suffix-Automaten und eines globalen KL-Prädiktionsbeitragsspektrums findet die Studie eine starke Korrelation zwischen der Steigung des Spektrumsendes und dem Daten-Skalierungsexponenten von GPT-Lernenden, was zeigt, dass der effektive Trunkierungsrang logarithmisch skaliert.

29
RESEARCHarXiv CS.CL·4/13/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

Diese Arbeit enthüllt eine kritische Schwachstelle in diffusionsbasierten Sprachmodellen (dLLMs), deren Sicherheitsausrichtung, basierend auf monotonen Entrauschungsplänen, leicht umgangen werden kann. Durch das Neumaskieren von Ablehnungs-Tokens und das Injizieren eines bejahenden Präfixes erzielten Forscher hohe Angriffserfolgsraten gegen prominente dLLMs und legten damit einen strukturellen Fehler offen.

29
RESEARCHarXiv CS.CL·vor 22T

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Dieses Papier präsentiert eine umfassende Analyse neuronaler Aktivierungsmuster in sechs verschiedenen Architekturen großer Sprachmodelle (LLM), wobei deren Leistung bei zwölf kognitiven Aufgabenkategorien untersucht wird. Die Ergebnisse offenbaren grundlegende Unterschiede in der Verarbeitung vielfältiger kognitiver Aufgaben durch Encoder- und Decoder-Architekturen, wobei mathematisches Denken die höchste Aufmerksamkeitsentropie erzeugt und Decoder-Modelle signifikant höhere Sparsity aufweisen.

29
RESEARCHarXiv CS.LG·vor 15T

The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

Diese Forschungsstudie zeigt, dass kleine, anweisungsorientierte Sprachmodelle (LMs), die Chain-of-Thought (CoT) für Arithmetik verwenden, oft eine positionale Abkürzung nutzen, indem sie die Zahl kopieren, die die letzte Position vor dem Antwortbegrenzer einnimmt. Diese Abkürzung dominiert, selbst wenn die Zwischenschritte korrekt sind, was die Antwortgenauigkeit erheblich beeinflusst.

29
RESEARCHarXiv CS.CL·vor 5T

Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models

Diese Studie untersucht den Einfluss von Diskursrollen-Etiketten wie "Referenz" oder "Anweisung" auf das Verhalten von Sprachmodellen. Es zeigt sich, dass sich die Adoptionsrate irreführender Informationen je nach Etikett erheblich verschieben kann (56-84 Prozentpunkte), wobei Etiketten wie "Anweisung" die Adoption erhöhen und "Beispiel" sie konstant unterdrückt.

28