← heapsort-ai

Natural Language Processing

168 items

RESEARCHarXiv CS.CL·vor 7T

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Dieses Papier schlägt CSRP vor, ein dreistufiges Framework zur Korrektur chinesischer Grammatikfehler (CGEC) mithilfe großer Sprachmodelle (LLMs). CSRP begegnet den Herausforderungen allgemeiner Modelle und der Metrikoptimierung mit kontinuierlichem Vortraining, Chain-of-Thought SFT und Richtlinienoptimierung mit effizienzbewussten Belohnungen, die unnötige Bearbeitungen bestrafen, und erreicht damit Spitzenleistungen im NACGEC-Benchmark.

27
RESEARCHarXiv CS.CL·vor 25T

Merging Methods for Multilingual Knowledge Editing for Large Language Models: An Empirical Odyssey

Dieses Papier untersucht die Wirksamkeit von Vektor-Fusionsmethoden für die mehrsprachige Wissensbearbeitung (MKE) in großen Sprachmodellen, wobei der Fokus auf der Reduzierung von Interferenzen zwischen sprachspezifischen Bearbeitungen liegt. Durch die Bewertung von sechs Fusionsvarianten mit zwei populären Backbone-LLMs, zwei Wissensbearbeitungsmethoden und 12 Sprachen auf dem MzsRE-Benchmark wird festgestellt, dass die Vektorsumme mit geteilter Kovarianz die insgesamt zuverlässigste Strategie ist.

27
RESEARCHarXiv CS.CL·vor 26T

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner ist ein neuartiges Framework, das große Reasoning-Modelle (LRMs) nutzt, um die Zeitstrahl-Zusammenfassung zu verbessern und passive Ansätze von großen Sprachmodellen (LLMs) zu überwinden. Es verwendet einen aktiven, auf Reasoning basierenden zweistufigen Prozess – Globale Kognition und Detail-Exploration – um strukturierte Zeitstrahlen aus unstrukturierten Online-Nachrichten aktiv zu extrahieren und zu verfeinern.

27
RESEARCHarXiv CS.CL·vor 22T

DiscoExplorer: An Open Interface for the Study of Multilingual Discourse Relations

DiscoExplorer stellt eine Open-Source-Weboberfläche vor, die das Studium und den sprachübergreifenden Vergleich von Diskursbeziehungen in 16 Sprachen erleichtern soll. Dieses Tool begegnet der Komplexität relevanter Daten und dem Mangel an zugänglichen Schnittstellen in der Computerlinguistik, indem es Abfrage-, Such- und Visualisierungsfunktionen bietet.

27
RESEARCHarXiv CS.AI·vor 26T

State-Centric Decision Process

Der State-Centric Decision Process (SDP) ist ein neues Framework, das den Mangel an Laufzeitstruktur in Sprachumgebungen, wie Webbrowsern, die Rohdaten anstelle von Zuständen emittieren, adressiert. Es ermöglicht einem Agenten, fehlende MDP-Eingaben wie Zustandsraum und zertifizierte Übergänge zu konstruieren, indem er Aktionen ausführt und Beobachtungen gegen natürlichsprachliche Prädikate prüft.

27
RESEARCHarXiv CS.CL·vor 18T

Residual Skill Optimization for Text-to-SQL Ensembles

DivSkill-SQL führt ein Framework zur Optimierung residualer Fähigkeiten ein, um komplementäre Text-to-SQL-Ensembles aufzubauen, wodurch die Genauigkeit durch gezielte marginale Beiträge zu Pass@K verbessert wird. Es erzielt signifikante Genauigkeitsgewinne bei Spider2-Lite für Snowflake und BigQuery gegenüber bestehenden Ensemble-Baselines.

27
RESEARCHarXiv CS.CL·vor 6T

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX ist ein großer mehrsprachiger Benchmark, der eingeführt wurde, um die Herausforderungen idiomatischer Ausdrücke in der natürlichen Sprachverarbeitung anzugehen. Er enthält über 190.000 kontextualisierte Beispiele für über 12.000 Redewendungen mit ausgerichteten semantischen Darstellungen in Englisch, Arabisch und Französisch.

27
RESEARCHarXiv CS.CL·vor 14T

Raon-Speech Technical Report

Raon-Speech ist ein leistungsstarkes Sprachmodell (SpeechLM) mit 9 Milliarden Parametern für das Verständnis, die Beantwortung und die Generierung von englischer und koreanischer Sprache, das bei 42 Benchmarks hervorragende Ergebnisse erzielt. Es verwandelt erfolgreich ein vortrainiertes LLM in ein SpeechLM, wobei starke Textfähigkeiten durch spezifische Trainingsphasen erhalten bleiben.

27
RESEARCHarXiv CS.CL·vor 15T

Knowledge Distillation for Low-Resource Open-source Text-to-SQL Model

Dieser Artikel schlägt ein wissensbasiertes Text-to-SQL-Framework vor, um natürliche Sprachfragen in ausführbare SQL-Abfragen umzuwandeln, selbst in ressourcenarmen Umgebungen. Es begegnet Herausforderungen wie knappen annotierten Daten und undurchsichtigen Schemadefinitionen durch die Integration von aufgabenspezifischem Wissen in Training und Inferenz.

27
RESEARCHarXiv CS.AI·vor 15T

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Diese Forschungsarbeit stellt 'PathCal' vor, die die unterschiedlichen funktionalen Rollen und den Zeitpunkt von Reflexionsmarkern in den Chain-of-Thought-Trajektorien großer Reasoning Language Models untersucht. Es zeigt sich, dass Marker wie 'wait' oder 'but' erheblich in ihrem Einfluss auf Genauigkeit und Generierungslänge variieren, was frühere grobkörnige Ansätze in Frage stellt.

27
RESEARCHarXiv CS.CL·vor 15T

Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation: A Dynamic Strategy with Contextual Window Expansion

Dieser Artikel stellt Query-Adaptive Semantic Chunking (QASC) vor, eine dynamische Strategie für Retrieval-Augmented Generation (RAG)-Systeme, die Benutzeranfragen in die Dokumentsegmentierung integriert. QASC nutzt Kosinus-Ähnlichkeitsbewertung, kontextuelle Fenstererweiterung und Chunk-Level-Score-Aggregation, um die Kontextabfrage zu optimieren und die Einschränkungen fester Chunking-Methoden zu überwinden.

27
RESEARCHarXiv CS.CL·vor 6T

Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States

Dieser Artikel zeigt, dass lineare Sonden, die oft verwendet werden, um unterschiedliche Schlussfolgerungsrepräsentationen in verborgenen Zuständen von LLMs zu identifizieren, tatsächlich das Aufgabenformat und nicht die Schlussfolgerungsmodi erkennen. Die hohe Genauigkeit, die bei Benchmarks mit Qwen3-14B beobachtet wurde, verschwand bei der Kontrolle von Formatvariablen, was auf weitgehend geteilte Schlussfolgerungen hindeutet, die nicht funktional mit der Geometrie des verborgenen Zustands verbunden sind.

27
RESEARCHarXiv CS.CL·vor 8T

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Diese Forschungsarbeit untersucht die globale Narrativdominanz in Großen Sprachmodellen (LLMs), bei der lokales kulturelles Wissen oft von globalen Narrativen überschattet wird. Sie stellt den CulturalNB-Datensatz für bengalische Kulturkontexte vor und zeigt, dass in Englisch gestellte Fragen die globale Substitution und institutionelle Rahmung verstärken und die Abdeckung lokaler Perspektiven reduzieren.

27
RESEARCHarXiv CS.AI·vor 15T

NeuroNL2LTL: A Neurosymbolic Framework for Natural Language Translation of Linear Temporal Logic

NeuroNL2LTL ist eine neurosymbolische Architektur, die gelernte Übersetzung mit formaler Verifikation vereint, um natürliche Sprache in Lineare Temporale Logik zu übersetzen. Sie nutzt ein Training mit Verifizierer im Regelkreis, bei dem Verifikationsergebnisse als Belohnungssignale für Verstärkungslernen dienen, um die formale Korrektheit zu optimieren.

27
RESEARCHarXiv CS.AI·vor 12T

Soro: A Lightweight Foundation Model and Chatbot for Tajik

Soro ist eine Familie von auf Tadschikisch spezialisierten konversationellen großen Sprachmodellen (LLMs), die für den Einsatz in Tadschikistan unter Rechen- und Konnektivitätsbeschränkungen entwickelt wurden. Basierend auf Gemma 3 Checkpoints und vortrainiert mit einem 1,9 Milliarden Token umfassenden tadschikischen Korpus, übertrifft es Baselines auf neuen tadschikischen Benchmarks deutlich.

27
ARTICLEDEV.to AI·vor 25T

Helping ChatGPT better recognize context in sensitive conversations

Diese technische Analyse untersucht, wie die Fähigkeit von ChatGPT zur Kontextualisierung in sensiblen Gesprächen verbessert werden kann, was für genaue und einfühlsame Antworten entscheidend ist. Sie hebt aktuelle Einschränkungen hervor, wie mangelndes domänenspezifisches Wissen und unzureichendes Nuancenverständnis, um technische Lösungen für diese Herausforderungen zu finden.

27