← heapsort-ai

Natural Language Processing

168 items

ARTICLEDEV.to AI·vor 15T

GLM-4: The Chinese-English Bilingual Workhorse You Didn't Know You Needed

GLM-4 ist ein chinesisch-englisches zweisprachiges KI-Modell der Tsinghua University / Zhipu AI, das im Gegensatz zu den meisten englischzentrierten Modellen von Grund auf für beide Sprachen optimiert wurde. Es verfügt über eine Mixture-of-Experts-Architektur für schnelle Inferenz, einen langen Kontext von bis zu 128.000 Tokens und konzentriert sich auf Funktionsaufrufe und Agenten-Workflows.

27
ARTICLEDEV.to AI·4/19/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Dieser Artikel beleuchtet die Grenzen von LSTMs beim Beibehalten des Kontexts, trotz ihrer verbesserten Gedächtnisfähigkeiten im Vergleich zu einfachen RNNs. Der Autor nutzt eine persönliche Erfahrung beim Englischlernen, um drei spezifische Probleme zu veranschaulichen, die LSTMs immer noch nicht lösen, und ebnet damit den Weg für die Diskussion von Aufmerksamkeitsmechanismen.

27
ARTICLEDEV.to AI·4/17/2026

Error Genome: Teaching Your AI System to Learn from Failures

Der Autor entwickelte ein KI-Kundensupportsystem namens Nova, das großen Erfolg erzielte, indem es sich darauf konzentrierte, aus seinen Fehlern zu lernen, anstatt sich ausschließlich auf die Fehlervermeidung zu konzentrieren. Dieser Ansatz, "Error Genome" genannt, führte zu einer Reduzierung der Fehlerraten um 40 % und einer Steigerung der Gesamtgenauigkeit des Systems um 20 %.

27
RESEARCHarXiv CS.CL·4/15/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Dieses Papier stellt das Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) vor, ein deterministisches Framework zur Optimierung der Textkategorisierung mittels LLMs. Es begegnet LLM-Einschränkungen, indem es Texte hierarchisch organisiert und ein Signal-Rausch-Verhältnis (SNR) nutzt, um sich auf hochrelevante semantische Merkmale zu konzentrieren.

27
RESEARCHarXiv CS.CL·5/5/2026

Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect

Dieser Artikel stellt XHS-SCoRE vor, einen leserbasierten Benchmark zur Erkennung, ob ein reiner Textbeitrag auf Xiaohongshu (RedNote) einen aufwärts-, abwärtsgerichteten oder neutralen sozialen Vergleich auslöst. Die Studie zeigt eine konsistente Diskrepanz zwischen der Generierungsflüssigkeit von LLMs und ihrer zuverlässigen Erkennungsfähigkeit, was darauf hindeutet, dass LLMs soziale Vergleichsauslöser generieren, die sie nicht robust erkennen können.

27
RESEARCHarXiv CS.CL·5/5/2026

Controlled Paraphrase Geometry in Sentence Embedding Space: Local Manifold Modeling and Latent Probing

Diese Arbeit untersucht die lokale Geometrie von Einbettungswolken, die durch kontrollierte Klassen semantisch ähnlicher Sätze induziert werden. Die Autoren stellen ein lokales geometrisches Modellierungsschema und ein latentes Sondierungsverfahren zur Analyse des Repräsentationsraums und zur Modellierung lokaler Mannigfaltigkeiten vor.

27
RESEARCHarXiv CS.CL·4/10/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

27
RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Diese Arbeit argumentiert, dass die beobachteten Effekte von "kontrafaktuellem Prompting" in LLMs nicht einem gezielten Faktor zugeschrieben werden können, ohne bedeutungserhaltende Textmodifikationen zu berücksichtigen, die die allgemeine Modellsensitivität festlegen. Die Forschung zeigt, dass die Vorhersageumkehrraten beim chirurgischen Ändern des Patientengeschlechts statistisch nicht von den durch einfaches Paraphrasieren der Eingaben induzierten Raten unterscheidbar sind, was darauf hindeutet, dass keine besondere Sensitivität gegenüber dem Patientengeschlecht geschlossen werden kann.

27
RESEARCHarXiv CS.CL·4/27/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Dieses Papier stellt ein hoch-effizientes Retrieval-Augmented Generation (RAG)-System für die ukrainische Dokumenten-Fragenbeantwortung vor, das den 2. Platz in der UNLP 2026 Shared Task erreichte. Es nutzt eine angepasste Hybridsuche und ein optimiertes ukrainisches Sprachmodell, komprimiert für qualitativ hochwertige, lokale Bereitstellung auf ressourcenbeschränkter Hardware.

27
RESEARCHarXiv CS.CL·4/9/2026

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

27
RESEARCHarXiv CS.CL·4/30/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Dieser Artikel stellt MATH-PT vor, einen neuen Datensatz mit 1.729 mathematischen Problemen in europäischem und brasilianischem Portugiesisch, um die sprachliche Verzerrung bei der Bewertung des mathematischen Denkens von LLMs zu beheben. Der Benchmark zeigt, dass führende Modelle bei Multiple-Choice-Fragen eine starke Leistung erbringen, diese jedoch bei offenen Fragen abnimmt.

27
RESEARCHarXiv CS.CL·5/1/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Dieses Papier stellt BatteryPass-12K vor, den ersten öffentlichen Datensatz für die neuartige Aufgabe der Konformitätsklassifizierung digitaler Batterie-Pässe (DBP), um einen kritischen Bedarf vor den neuen EU-Vorschriften zu decken. Es bewertet 22 Sprachmodelle und zeigt, dass "denkende Modelle" wie GPT-5.4 die beste Leistung erzielen und Few-Shot-Beispiele die Ergebnisse erheblich verbessern.

27
RESEARCHarXiv CS.CL·4/16/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Dieses Papier stellt einen proaktiven EMR-Assistenten für den Arzt-Patienten-Dialog vor, der entwickelt wurde, um die Einschränkungen passiver Systeme durch die Integration von Streaming-ASR, Glaubensstabilisierung und Aktionsplanung zu überwinden. Das System wurde in einer vorläufigen kontrollierten Umgebung evaluiert und erreichte einen F1-Wert von 0,84 sowie einen Recall@5 von 0,87.

27
RESEARCHarXiv CS.CL·4/30/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ ist ein trainingsfreies Framework zur Diagnose und Behebung von Gedächtnis- und Denkdefiziten in großen Sprachmodellen bei professionellen Prüfungsfragen. Es entkoppelt und richtet Abruf und Schlussfolgerung an menschlichen kognitiven Hierarchien aus, indem es Reinforced Retrieval und kognitionsgeschichtetes Constrained Reasoning einsetzt, um Genauigkeit und Konsistenz zu verbessern.

27