← heapsort-ai

language models

105 items

RESEARCHarXiv CS.CL·4/22/2026

Probing for Reading Times

Diese Forschung untersucht Sprachmodellrepräsentationen auf menschliche Lesezeiten in fünf Sprachen und vergleicht sie mit skalaren Prädiktoren. Es zeigt sich, dass frühe Schichten der Sprachmodelle die Überraschung bei der Vorhersage von Frühpass-Lesemaßen übertreffen, was eine funktionale Ausrichtung zwischen Modelltiefe und den zeitlichen Stadien des menschlichen Lesens nahelegt.

27
NEWSDEV.to AI·vor 16T

AI Daily Digest: May 25, 2026 — Grok Build CLI, Cursor Composer 2.5, Qwen 3.7, X-Humanoid Wise KaiWu & More

xAIs Grok Build CLI wurde in einer frühen Beta-Phase veröffentlicht und bietet 8 parallele Subagenten sowie ein 2-Millionen-Token-Kontextfenster. Cursors Composer 2.5 erreichte die allgemeine Verfügbarkeit und zeigte Gleichwertigkeit mit fortgeschrittenen Modellen bei Codierungsaufgaben, während Alibabas Qwen 3.7-Max-Preview ein 1-Millionen-Token-Kontextfenster mit einem erweiterten Denkmodus einführte.

27
RESEARCHarXiv CS.CL·5/4/2026

RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners

RSAT ist eine neue Methode, die kleine Sprachmodelle (SLMs) trainiert, um eine getreue, schrittweise Argumentation für Tabellenfragen zu erstellen, die mit zellgenauen Zitaten untermauert ist. Sie verbessert die Treue erheblich (3,7-fach) und erreicht eine nahezu perfekte Zitiergültigkeit, indem die Attribuierung in den Denkprozess integriert wird.

27
RESEARCHarXiv CS.CL·vor 23T

Why are language models less surprised than humans? Testing the Parse Multiplicity Mismatch Hypothesis

Diese Arbeit untersucht, warum Sprachmodelle bei syntaktisch mehrdeutigen Sätzen weniger „überrascht“ sind als Menschen. Sie testet die Hypothese, dass Sprachmodelle gleichzeitig eine größere Anzahl von Satzinterpretationen berücksichtigen können, indem sie rekurrente neuronale Netzgrammatiken verwenden.

27
RESEARCHarXiv CS.AI·4/22/2026

Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations

Diese Forschungsarbeit behandelt die Einschränkung, dass Benutzer mit Sprachmodellen nur über einzelne Ausgaben interagieren, was die vollständige Verteilung möglicher Generierungen verbirgt. Sie stellt GROVE vor, eine interaktive Visualisierung, die mehrere LM-Generierungen als überlappende Pfade in einem Textgraphen darstellt und so gemeinsame Strukturen und Verzweigungspunkte für ein besseres Verständnis offenbart.

27
RESEARCHarXiv CS.CL·vor 27T

Differences in Text Generated by Diffusion and Autoregressive Language Models

Diese Forschung untersucht die intrinsischen Unterschiede in Texten, die von Diffusions-Sprachmodellen (DLMs) und autoregressiven Sprachmodellen (ARMs) generiert werden, und stellt fest, dass DLMs eine geringere n-Gramm-Entropie, aber eine höhere semantische Kohärenz und Diversität aufweisen. Kontrollierte Experimente zeigen, dass die Trainingsziele von DLMs zur Erhöhung der semantischen Kohärenz und Diversität beitragen, während die Dekodierungsalgorithmen für die Entropiereduktion verantwortlich sind.

27
NEWSDEV.to AI·vor 18T

6.4 Claim Puts Nemotron-Labs Diffusion in AI Fast Lane

NVIDIAs Nemotron-Labs Diffusion zielt darauf ab, KI-Anwendungen zu beschleunigen, indem der Engpass eines Tokens durch parallele Generierung mehrerer Tokens behoben wird. Dieses neue Diffusions-Sprachmodell beansprucht bis zu 6,4-mal höhere Tokens pro Forward-Pass und kommt damit latenzempfindlichen KI-Produkten wie Coding-Assistenten und Agenten-Workflows erheblich zugute.

27
RESEARCHDEV.to AI·vor 26T

Generative Simulation Benchmarking for heritage language revitalization programs for extreme data sparsity scenarios

Der Text behandelt die Herausforderung, Sprachmodelle für kritisch bedrohte Kultursprachen unter extremen Datensparsamkeitsszenarien zu entwickeln. Der Autor schildert seine persönlichen Erfahrungen mit einem winzigen Datensatz für eine Sprache wie Halkomelem und betont die Notwendigkeit neuartiger Ansätze für solche Situationen.

27
ARTICLEDEV.to AI·5/2/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

Dieser Artikel beleuchtet, wie die meisten englischsprachigen KI-Gesundheitssysteme bei medizinischen Anfragen in lokalen Sprachen wie Marathi versagen. Er betont die Notwendigkeit von KI, die nativ in mehreren Sprachen argumentiert, anstatt sich auf Übersetzungs- oder lokalisierungsbasierte Ansätze zu verlassen, um genaue Gesundheitsberatung zu bieten.

27
RESEARCHDEV.to AI·5/9/2026

Hierarchical skill KB improves performance of weaker models

Eine neue automatisierte Pipeline, SkillX, verbessert die Leistung autonomer Sprachmodellagenten, indem sie wiederverwendbare, hierarchische Verhaltensweisen aus kollektiven Trajektorien extrahiert. Diese dreistufige Wissensbasis (strategische, funktionale, atomare Fähigkeiten) ermöglicht es schwächeren Modellen, Erfahrungen effizient abzurufen und so die Einschränkungen traditioneller Methoden zu überwinden.

27
RESEARCHDEV.to AI·5/8/2026

Micro LM delivers large‑model quality on device

Eine neue Studie stellt Micro Language Models (μLMs) vor, ultrakompakte Modelle (8M–30M Parameter), die große Modellqualität auf Geräten liefern. Dieser Ansatz löst das Dilemma zwischen sofortiger erster Antwort und vollständiger, durchdachter Antwort bei Edge-Assistenten, indem Antworten lokal begonnen und die Latenz durch Cloud-Modelle reduziert werden.

27