Natural Language Processing

168 items

RESEARCHarXiv CS.CL·4/17/2026

Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble

Diese Arbeit untersucht die Erkennung chinesischer Aufsatzrhetorik mittels großer Sprachmodelle (LLMs), LoRA und In-Context-Lernen zur Bewertung sprachlicher und höherer Denkfähigkeiten. Die vorgeschlagene Methode erzielte die beste Leistung und gewann den ersten Preis bei der CCL 2025 Bewertungsaufgabe zur Erkennung chinesischer Aufsatzrhetorik.

AI for education LLMs machine learning rhetoric recognition

RESEARCHarXiv CS.CL·5/8/2026

SLAM: Structural Linguistic Activation Marking for Language Models

SLAM (Structural Linguistic Activation Marking) ist ein neuartiges White-Box-Wasserzeichenverfahren für LLMs, das die Markierung in die strukturelle Geometrie und nicht in die Token-Frequenzen schreibt. Es erreicht eine 100%ige Erkennungsgenauigkeit bei minimalem Qualitätsverlust und übertrifft bestehende Verfahren.

LLMs watermarking Natural Language Processing model generation

RESEARCHarXiv CS.CL·vor 19T

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Diese Studie schlägt ein strukturiertes Framework zur Verbesserung des LLM-Argumentationsvermögens bei der Analyse langer Dokumente vor, um kontextuelle Verzerrungen und Auslassungsfehler zu bekämpfen. Es kombiniert parallele abschnittsweise Verarbeitung mit evidenzbasierter Konsolidierung, um robustere und bias-resistentere konzeptuelle Abstraktionen zu erzeugen.

Contextual Reasoning Natural Language Processing AI Research Bias

RESEARCHarXiv CS.CL·4/17/2026

Decoupling Scores and Text: The Politeness Principle in Peer Review

Diese Studie untersucht die Schwierigkeit, Peer-Review-Feedback zu interpretieren, indem sie die Effektivität numerischer Bewertungen gegenüber Text bei der Vorhersage der Annahme vergleicht. Die Forschung zeigt, dass score-basierte Modelle (91%) signifikant genauer sind als textbasierte Modelle (81% selbst mit LLMs), was darauf hindeutet, dass textuelle Informationen erheblich weniger zuverlässig sind.

machine learning Natural Language Processing large language models Peer review

RESEARCHarXiv CS.CL·5/8/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Dieses Papier schlägt ein evidenzbasiertes Modell vor, um Abfragen aus abfragefreien Zusammenfassungsdatensätzen zu generieren und so die Herausforderung geeigneter Datensätze für die abfragefokussierte Zusammenfassung (QFS) anzugehen. Experimente zeigen, dass Zusammenfassungen, die mit diesen evidenzbasierten Abfragen generiert wurden, wettbewerbsfähige ROUGE-Werte erreichen, was ihre Wirksamkeit für die QFS-Aufgabe unterstützt.

query generation Natural Language Processing datasets summarization

RESEARCHarXiv CS.CL·4/24/2026

Machine learning and digital pragmatics: Which word category influences emoji use most?

Diese Studie untersucht den Einsatz von maschinellem Lernen, speziell des MARBERT-Modells, zur Vorhersage der Emoji-Nutzung in arabischen Tweets. Das Modell erreichte eine Gesamtgenauigkeit von 0,75, was vielversprechende Ergebnisse liefert, aber auch weiteren Verbesserungsbedarf aufzeigt.

Emoji Prediction Social Media Analysis Arabic Language machine learning

RESEARCHarXiv CS.CL·5/8/2026

AdaGATE: Adaptive Gap-Aware Token-Efficient Evidence Assembly for Multi-Hop Retrieval-Augmented Generation

AdaGATE ist ein trainingsfreier Evidenz-Controller für Multi-Hop Retrieval-Augmented Generation (RAG), der entwickelt wurde, um verrauschte oder redundante abgerufene Evidenz in begrenzten Kontexten zu adressieren. Es fasst die Evidenzauswahl als token-beschränktes Reparaturproblem auf und kombiniert lückenorientiertes Tracking und zielgerichtete Mikro-Anfragen, um Abdeckung, Bestätigung und Neuheit auszugleichen.

Retrieval Augmented Generation AI models Multi-hop RAG Evidence Selection

RESEARCHarXiv CS.CL·4/20/2026

Applied Explainability for Large Language Models: A Comparative Study

Diese Studie vergleicht drei Erklärbarkeitstechniken (Integrated Gradients, Attention Rollout und SHAP) an einem fein abgestimmten DistilBERT-Modell für die Sentimentklassifikation. Die Ergebnisse zeigen, dass gradientenbasierte Ansätze stabilere und intuitivere Erklärungen liefern, während auf Aufmerksamkeit basierende Methoden zwar effizient, aber weniger auf vorhersagerelevante Merkmale abgestimmt sind.

Comparative Study Natural Language Processing Explainable AI large language models

RESEARCHarXiv CS.CL·4/24/2026

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

Diese Arbeit stellt Hierarchical Policy Optimization (HPO) für die simultane Sprachübersetzung (SST) mittels LLMs vor, um Herausforderungen wie hohe Rechenkosten und unvollkommene Trainingsdaten zu bewältigen. HPO verwendet eine hierarchische Belohnung, um Übersetzungsqualität und Latenz auszugleichen, und zeigt erhebliche Verbesserungen der COMET- und MetricX-Scores.

LLMs machine learning Natural Language Processing speech-translation

RESEARCHarXiv CS.CL·4/21/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Diese Forschung bewertet spekulatives Decoding für polnische LLMs auf Apple Silicon und erweitert das MLX-LM-Framework um Universal Assisted Generation (UAG) für Cross-Tokenizer-Kompatibilität. Experimente zeigen, dass kontextbewusste Token-Übersetzung die Akzeptanzraten für Bielik 11B auf polnischsprachigen Datensätzen signifikant verbessert.

apple-silicon Natural Language Processing Inference Optimization Speculative Decoding

ARTICLEDEV.to AI·4/16/2026

From Mumbles to Memos: Teaching AI to Understand Technician Voice Notes and Jargon

Lokale HLK- oder Sanitärbetriebe verschwenden Zeit damit, Techniker-Sprachnotizen voller Fachjargon manuell zu entschlüsseln. Eine vorgeschlagene Lösung ist der Einsatz von KI, die darauf trainiert wird, spezifische, strukturierte Daten aus unstrukturierter Sprache zu extrahieren, um diesen Geschäftsengpass zu überwinden.

Natural Language Processing Small business AI automation

RESEARCHarXiv CS.CL·4/21/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS stellt den ersten feingranularen chinesischen multimodalen Sarkasmus-Erkennungs-Benchmark vor, bestehend aus 2.796 Bild-Text-Paaren mit dreifachen Annotationen. Dieser Datensatz zielt darauf ab, das feingranulare semantische Verständnis und das metaphorische Denken in KI-Modellen zu verbessern und bestehende Benchmark-Einschränkungen zu beheben.

Dataset multimodal AI Natural Language Processing benchmark

RESEARCHarXiv CS.LG·4/24/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Transformatoren leiden unter hohen Rechenkosten und Speicherverbrauch bei langen Sequenzen, während Alternativen Langzeitabhängigkeiten verlieren. Absorber LLM schlägt eine selbstüberwachte kausale Synchronisation vor, um historische Kontexte in Modellparameter zu absorbieren, sodass ein kontextloses Modell zukünftige Generierungen eines Modells mit vollständigem Kontext erreichen kann.

AI architecture Natural Language Processing Machine Learning Optimization large language models

RESEARCHarXiv CS.CL·4/21/2026

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

LiFT ist ein neuer Rahmen für das Anweisung-Feintuning, der das In-Context-Lernen von LLMs für longitudinale NLP-Aufgaben verbessern soll, die Schlussfolgerungen über zeitlich geordnete Texte erfordern. Er verwendet ein Curriculum, das die temporale Schwierigkeit schrittweise erhöht, Few-Shot-Struktur und temporale Konditionierung integriert und Basemodelle über verschiedene Datensätze und Parametergrößen hinweg durchweg übertrifft.

LLMs temporal reasoning Natural Language Processing in-context learning

RESEARCHarXiv CS.CL·vor 25T

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Dieses Papier stellt Derivation Prompting vor, eine neuartige Prompting-Technik für das Retrieval-Augmented Generation (RAG)-Framework. Die Methode zielt darauf ab, Halluzinationen und fehlerhaftes Denken in großen Sprachmodellen (LLMs) durch die systematische Anwendung vordefinierter Regeln zur Ableitung von Schlussfolgerungen zu reduzieren. Eine Fallstudie zeigte eine signifikante Reduzierung inakzeptabler Antworten im Vergleich zu herkömmlichen RAG-Methoden.

LLMs RAG Prompting Natural Language Processing

RESEARCHarXiv CS.CL·5/7/2026

FMI_SU_Yotkova_Kastreva at SemEval-2026 Task 13: Lightweight Detection of LLM-Generated Code via Stylometric Signals

Dieses Papier beschreibt die Teilnahme an SemEval-2026 Aufgabe 13, die sich auf die leichte Erkennung von LLM-generiertem Code mittels stilometrischer Signale konzentriert. Der Ansatz verwendet verhältnisbasierte Merkmale, Parsing-Engines und Sprachklassifizierer, ist recheneffizient und bietet eine nahezu sofortige Inferenzzeit.

security machine learning Natural Language Processing Code Analysis

RESEARCHarXiv CS.CL·vor 29T

Can LLMs Take Retrieved Information with a Grain of Salt?

Dieser Artikel bewertet die Fähigkeit großer Sprachmodelle (LLMs), ihre Antworten an die Sicherheit der abgerufenen Informationen anzupassen, und deckt systematische Einschränkungen auf. Er schlägt eine Interaktionsstrategie vor, die frühere Erinnerungen, Sicherheitsskalibrierung und Kontextvereinfachung kombiniert, um die Zuverlässigkeit von LLMs zu verbessern. Dieser Ansatz reduziert Gehorsamsfehler um 25%, ohne Modellgewichte zu ändern.

LLMs context certainty Natural Language Processing AI reliability

RESEARCHarXiv CS.CL·vor 21T

Exploring Lightweight Large Language Models for Court View Generation

Die Forschung untersucht die Fähigkeiten leichter Large Language Models (LLMs) bei der Generierung von Gerichtsansichten (CVG) und deren Einfluss auf die Anklagevorhersage in der Rechts-KI. Sie untersucht systematisch Architekturen, LLM-Größen und vergleicht sie mit Deep Neural Networks, wobei sie auch das CVGEvalKit-Framework einführt.

Legal AI research Court View Generation Natural Language Processing

RESEARCHarXiv CS.CL·vor 29T

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D ist ein neuer Benchmark für bengalische Social-Media-Daten, der das Verhalten von LLMs bei der Closed-Set-Annotation diagnostizieren soll. Die Untersuchung zeigt ein Phänomen namens „anweisungsinduzierter Label-Kollaps“, bei dem LLMs Standard-Labels bevorzugen und Minderheitskategorien untererfassen.

LLMs Natural Language Processing Data Annotation Benchmarks

RESEARCHarXiv CS.CL·vor 21T

A Scalable Tool for Measuring Manner and Result Verbs in Developmental Language Research

Diese Forschung stellt einen skalierbaren computergestützten Ansatz zur Messung von Verben des Manier und des Ergebnisses vor, eine entscheidende Unterscheidung für die entwicklungsbezogene Sprachforschung. Es werden große Sprachmodelle für Satzannotationen verwendet und ein RoBERTa-basierter Klassifikator trainiert, der vielversprechende Leistungen auf Evaluierungsdatensätzen zeigt.

Language Acquisition machine learning Natural Language Processing linguistics