← heapsort-ai

Natural Language Processing

168 items

RESEARCHarXiv CS.CL·4/17/2026

Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble

Diese Arbeit untersucht die Erkennung chinesischer Aufsatzrhetorik mittels großer Sprachmodelle (LLMs), LoRA und In-Context-Lernen zur Bewertung sprachlicher und höherer Denkfähigkeiten. Die vorgeschlagene Methode erzielte die beste Leistung und gewann den ersten Preis bei der CCL 2025 Bewertungsaufgabe zur Erkennung chinesischer Aufsatzrhetorik.

27
RESEARCHarXiv CS.CL·vor 19T

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Diese Studie schlägt ein strukturiertes Framework zur Verbesserung des LLM-Argumentationsvermögens bei der Analyse langer Dokumente vor, um kontextuelle Verzerrungen und Auslassungsfehler zu bekämpfen. Es kombiniert parallele abschnittsweise Verarbeitung mit evidenzbasierter Konsolidierung, um robustere und bias-resistentere konzeptuelle Abstraktionen zu erzeugen.

27
RESEARCHarXiv CS.CL·4/17/2026

Decoupling Scores and Text: The Politeness Principle in Peer Review

Diese Studie untersucht die Schwierigkeit, Peer-Review-Feedback zu interpretieren, indem sie die Effektivität numerischer Bewertungen gegenüber Text bei der Vorhersage der Annahme vergleicht. Die Forschung zeigt, dass score-basierte Modelle (91%) signifikant genauer sind als textbasierte Modelle (81% selbst mit LLMs), was darauf hindeutet, dass textuelle Informationen erheblich weniger zuverlässig sind.

27
RESEARCHarXiv CS.CL·5/8/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Dieses Papier schlägt ein evidenzbasiertes Modell vor, um Abfragen aus abfragefreien Zusammenfassungsdatensätzen zu generieren und so die Herausforderung geeigneter Datensätze für die abfragefokussierte Zusammenfassung (QFS) anzugehen. Experimente zeigen, dass Zusammenfassungen, die mit diesen evidenzbasierten Abfragen generiert wurden, wettbewerbsfähige ROUGE-Werte erreichen, was ihre Wirksamkeit für die QFS-Aufgabe unterstützt.

27
RESEARCHarXiv CS.CL·5/8/2026

AdaGATE: Adaptive Gap-Aware Token-Efficient Evidence Assembly for Multi-Hop Retrieval-Augmented Generation

AdaGATE ist ein trainingsfreier Evidenz-Controller für Multi-Hop Retrieval-Augmented Generation (RAG), der entwickelt wurde, um verrauschte oder redundante abgerufene Evidenz in begrenzten Kontexten zu adressieren. Es fasst die Evidenzauswahl als token-beschränktes Reparaturproblem auf und kombiniert lückenorientiertes Tracking und zielgerichtete Mikro-Anfragen, um Abdeckung, Bestätigung und Neuheit auszugleichen.

27
RESEARCHarXiv CS.CL·4/20/2026

Applied Explainability for Large Language Models: A Comparative Study

Diese Studie vergleicht drei Erklärbarkeitstechniken (Integrated Gradients, Attention Rollout und SHAP) an einem fein abgestimmten DistilBERT-Modell für die Sentimentklassifikation. Die Ergebnisse zeigen, dass gradientenbasierte Ansätze stabilere und intuitivere Erklärungen liefern, während auf Aufmerksamkeit basierende Methoden zwar effizient, aber weniger auf vorhersagerelevante Merkmale abgestimmt sind.

27
RESEARCHarXiv CS.CL·4/24/2026

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

Diese Arbeit stellt Hierarchical Policy Optimization (HPO) für die simultane Sprachübersetzung (SST) mittels LLMs vor, um Herausforderungen wie hohe Rechenkosten und unvollkommene Trainingsdaten zu bewältigen. HPO verwendet eine hierarchische Belohnung, um Übersetzungsqualität und Latenz auszugleichen, und zeigt erhebliche Verbesserungen der COMET- und MetricX-Scores.

27
RESEARCHarXiv CS.CL·4/21/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Diese Forschung bewertet spekulatives Decoding für polnische LLMs auf Apple Silicon und erweitert das MLX-LM-Framework um Universal Assisted Generation (UAG) für Cross-Tokenizer-Kompatibilität. Experimente zeigen, dass kontextbewusste Token-Übersetzung die Akzeptanzraten für Bielik 11B auf polnischsprachigen Datensätzen signifikant verbessert.

27
RESEARCHarXiv CS.CL·4/21/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS stellt den ersten feingranularen chinesischen multimodalen Sarkasmus-Erkennungs-Benchmark vor, bestehend aus 2.796 Bild-Text-Paaren mit dreifachen Annotationen. Dieser Datensatz zielt darauf ab, das feingranulare semantische Verständnis und das metaphorische Denken in KI-Modellen zu verbessern und bestehende Benchmark-Einschränkungen zu beheben.

27
RESEARCHarXiv CS.LG·4/24/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Transformatoren leiden unter hohen Rechenkosten und Speicherverbrauch bei langen Sequenzen, während Alternativen Langzeitabhängigkeiten verlieren. Absorber LLM schlägt eine selbstüberwachte kausale Synchronisation vor, um historische Kontexte in Modellparameter zu absorbieren, sodass ein kontextloses Modell zukünftige Generierungen eines Modells mit vollständigem Kontext erreichen kann.

27
RESEARCHarXiv CS.CL·4/21/2026

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

LiFT ist ein neuer Rahmen für das Anweisung-Feintuning, der das In-Context-Lernen von LLMs für longitudinale NLP-Aufgaben verbessern soll, die Schlussfolgerungen über zeitlich geordnete Texte erfordern. Er verwendet ein Curriculum, das die temporale Schwierigkeit schrittweise erhöht, Few-Shot-Struktur und temporale Konditionierung integriert und Basemodelle über verschiedene Datensätze und Parametergrößen hinweg durchweg übertrifft.

27
RESEARCHarXiv CS.CL·vor 25T

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Dieses Papier stellt Derivation Prompting vor, eine neuartige Prompting-Technik für das Retrieval-Augmented Generation (RAG)-Framework. Die Methode zielt darauf ab, Halluzinationen und fehlerhaftes Denken in großen Sprachmodellen (LLMs) durch die systematische Anwendung vordefinierter Regeln zur Ableitung von Schlussfolgerungen zu reduzieren. Eine Fallstudie zeigte eine signifikante Reduzierung inakzeptabler Antworten im Vergleich zu herkömmlichen RAG-Methoden.

27
RESEARCHarXiv CS.CL·5/7/2026

FMI_SU_Yotkova_Kastreva at SemEval-2026 Task 13: Lightweight Detection of LLM-Generated Code via Stylometric Signals

Dieses Papier beschreibt die Teilnahme an SemEval-2026 Aufgabe 13, die sich auf die leichte Erkennung von LLM-generiertem Code mittels stilometrischer Signale konzentriert. Der Ansatz verwendet verhältnisbasierte Merkmale, Parsing-Engines und Sprachklassifizierer, ist recheneffizient und bietet eine nahezu sofortige Inferenzzeit.

27
RESEARCHarXiv CS.CL·vor 29T

Can LLMs Take Retrieved Information with a Grain of Salt?

Dieser Artikel bewertet die Fähigkeit großer Sprachmodelle (LLMs), ihre Antworten an die Sicherheit der abgerufenen Informationen anzupassen, und deckt systematische Einschränkungen auf. Er schlägt eine Interaktionsstrategie vor, die frühere Erinnerungen, Sicherheitsskalibrierung und Kontextvereinfachung kombiniert, um die Zuverlässigkeit von LLMs zu verbessern. Dieser Ansatz reduziert Gehorsamsfehler um 25%, ohne Modellgewichte zu ändern.

27
RESEARCHarXiv CS.CL·vor 21T

Exploring Lightweight Large Language Models for Court View Generation

Die Forschung untersucht die Fähigkeiten leichter Large Language Models (LLMs) bei der Generierung von Gerichtsansichten (CVG) und deren Einfluss auf die Anklagevorhersage in der Rechts-KI. Sie untersucht systematisch Architekturen, LLM-Größen und vergleicht sie mit Deep Neural Networks, wobei sie auch das CVGEvalKit-Framework einführt.

27
RESEARCHarXiv CS.CL·vor 29T

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D ist ein neuer Benchmark für bengalische Social-Media-Daten, der das Verhalten von LLMs bei der Closed-Set-Annotation diagnostizieren soll. Die Untersuchung zeigt ein Phänomen namens „anweisungsinduzierter Label-Kollaps“, bei dem LLMs Standard-Labels bevorzugen und Minderheitskategorien untererfassen.

27
RESEARCHarXiv CS.CL·vor 21T

A Scalable Tool for Measuring Manner and Result Verbs in Developmental Language Research

Diese Forschung stellt einen skalierbaren computergestützten Ansatz zur Messung von Verben des Manier und des Ergebnisses vor, eine entscheidende Unterscheidung für die entwicklungsbezogene Sprachforschung. Es werden große Sprachmodelle für Satzannotationen verwendet und ein RoBERTa-basierter Klassifikator trainiert, der vielversprechende Leistungen auf Evaluierungsdatensätzen zeigt.

27