← heapsort-ai

NLP

124 items

RESEARCHarXiv CS.AI·4/15/2026

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

Diese Forschung stellt GoodPoint vor, eine Methode, die LLMs und Autorenantworten nutzt, um konstruktives Feedback für wissenschaftliche Arbeiten zu generieren. Dabei wird GoodPoint-ICLR entwickelt, ein Datensatz von ICLR-Arbeiten, sowie ein Trainingsrezept, das Fine-Tuning und Präferenzoptimierung für gültiges und umsetzbares Feedback verwendet.

27
RESEARCHarXiv CS.CL·vor 29T

TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP

Diese Arbeit stellt TajPersLexon vor, eine Tadschikisch-Persische parallele lexikalische Ressource mit 40.112 Wortpaaren für Cross-Script NLP in ressourcenarmen Umgebungen. Es werden hybride, neuronale und Retrieval-Modelle bewertet, wobei neuronale und Retrieval-Baselines eine hohe Genauigkeit (98-99%) zeigen und das hybride Modell einen günstigen Kompromiss zwischen Genauigkeit und Effizienz (96,4%) bei der OCR-Nachkorrektur bietet.

27
RESEARCHarXiv CS.CL·vor 22T

Why are language models less surprised than humans? Testing the Parse Multiplicity Mismatch Hypothesis

Diese Arbeit untersucht, warum Sprachmodelle bei syntaktisch mehrdeutigen Sätzen weniger „überrascht“ sind als Menschen. Sie testet die Hypothese, dass Sprachmodelle gleichzeitig eine größere Anzahl von Satzinterpretationen berücksichtigen können, indem sie rekurrente neuronale Netzgrammatiken verwenden.

27
RESEARCHarXiv CS.CL·5/7/2026

The Impact of Vocabulary Overlaps on Knowledge Transfer in Multilingual Machine Translation

Diese Arbeit untersucht systematisch den Einfluss von gemeinsamen und getrennten Vokabularen auf den Wissenstransfer in der mehrsprachigen neuronalen Maschinenübersetzung (MNMT). Experimente zeigen, dass umfangreiche Vokabularüberschneidungen, Sprachverwandtschaft und Domänenübereinstimmung zu besseren Ergebnissen führen, selbst in Out-of-Domain-Setups.

27
RESEARCHarXiv CS.CL·vor 26T

Differences in Text Generated by Diffusion and Autoregressive Language Models

Diese Forschung untersucht die intrinsischen Unterschiede in Texten, die von Diffusions-Sprachmodellen (DLMs) und autoregressiven Sprachmodellen (ARMs) generiert werden, und stellt fest, dass DLMs eine geringere n-Gramm-Entropie, aber eine höhere semantische Kohärenz und Diversität aufweisen. Kontrollierte Experimente zeigen, dass die Trainingsziele von DLMs zur Erhöhung der semantischen Kohärenz und Diversität beitragen, während die Dekodierungsalgorithmen für die Entropiereduktion verantwortlich sind.

27
RESEARCHarXiv CS.CL·vor 13T

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

Diese Arbeit stellt CroCo vor, eine Methode zur kontrastiven Präferenzeinstellung über Sprachen hinweg für selbstgenerierte Antworten von LLMs, die eine effektive Übertragung über 14 Sprachen ohne sprachspezifische Präferenzannotationen zeigt. Ein auf englischen Präferenzen trainiertes Belohnungsmodell liefert nützliche Rankings in den meisten Sprachen, verbessert bestehende Modelle und verhindert katastrophales Vergessen, vorausgesetzt, On-Policy-Daten werden verwendet.

27
RESEARCHarXiv CS.CL·vor 12T

BioELX: Cross-lingual Biomedical Entity Linking via Alias-based Retrieval and LLM Ranking

BioELX ist ein zweistufiges, sprachübergreifendes biomedizinisches Entitätsverknüpfungsframework, das keine aufgabenspezifischen annotierten Trainingskorpora benötigt. Es verbessert die Kandidatenabrufung durch mehrsprachige Aliase aus Wikidata und führt eine kontextsensitive Disambiguierung mit einem vortrainierten LLM-Ranker durch.

27
DOCDEV.to AI·vor 16T

RAG 시스템 실전 구축 (v18)

Dieses Dokument beschreibt die praktische Implementierung von RAG-Systemen (Retrieval-Augmented Generation) und erläutert deren Kernkonzepte und Funktionsweise. Es behandelt die Phasen der Abrufung, Erweiterung und Generierung von Kontext zur Verbesserung von LLM-Antworten, einschließlich semantischer Dokumentenfragmentierung.

27
ARTICLEDEV.to AI·vor 8T

AI debt sales reshape global corporate bond markets

Die Integration von KI im Schuldenverkauf wird die globalen Unternehmensanleihemärkte erheblich verändern, angetrieben durch die Fähigkeit von KI-Systemen, große Datenmengen zu analysieren und präzise Vorhersagen zu treffen. KI-Schuldenverkaufsplattformen nutzen maschinelle Lernalgorithmen und natürliche Sprachverarbeitung, um die Kreditwürdigkeit zu bewerten und Risiken sowie Chancen zu identifizieren.

27
ARTICLEDEV.to AI·4/27/2026

Epismo Agent Package

Die technische Analyse des Epismo Agent Package beschreibt eine innovative Lösung zur Erstellung von KI-gesteuerten digitalen Menschen für Kundenservice, Unterhaltung und Bildung. Seine Microservices-Architektur integriert natürliche Sprachverarbeitung, maschinelles Lernen und Computer Vision, verwaltet von einem Agent Core und einem Knowledge Graph.

27
DOCDEV.to AI·vor 20T

92. BERT: The Model That Reads in Both Directions

BERT unterscheidet sich von GPT durch seine bidirektionale Lesefähigkeit, bei der maskierte Wörter anstelle von sequentiellen Wörtern vorhergesagt werden. Dieses umfassende Kontextverständnis machte es dominant bei NLP-Benchmarks und zu einem Eckpfeiler für Verständnisaufgaben. Der Inhalt beschreibt die Vortrainingsmechanismen und Feinabstimmungstechniken von BERT.

27
ARTICLEDEV.to AI·vor 26T

NLP Video Editing Copilot

Cutting Room AI ist eine eigenständige Windows-Desktop-App, die DaVinci Resolve Studio-Benutzern ermöglicht, ihre Timeline mit einfacher englischer Sprache zu steuern. Sie übersetzt natürliche Sprachbefehle in Skripting-API-Aufrufe, wodurch Benutzer Clipeigenschaften ändern und Spuroperationen ausführen können, ohne Skripting-Kenntnisse zu benötigen.

27
DOCDEV.to AI·vor 26T

Spellar 3.0

Spellar 3.0 ist eine KI-gesteuerte Sprachlernplattform, die personalisierten Unterricht und Feedback bietet. Ihre technische Architektur umfasst ein React-Frontend, ein Node.js-Backend mit PostgreSQL und eine NLP-Engine zur Analyse von Benutzereingaben in mehreren Sprachen.

27