← heapsort-ai

LLMs

723 items

RESEARCHarXiv CS.CL·4/24/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Dieses Papier stellt TRACES vor, ein leichtgewichtiges Framework zur Optimierung von Sprachbegründungsmodellen (LRMs) durch das Echtzeit-Tagging von Begründungsschritten. Es ermöglicht ein adaptives, kosteneffizientes vorzeitiges Beenden von LRM-Inferenzen und adressiert deren derzeitige Ineffizienz und die Überproduktion von Verifizierungsschritten.

27
RESEARCHarXiv CS.CL·4/24/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Dieses Papier stellt AFRILANGDICT, eine Sammlung afrikanisch-englischer Wörterbucheinträge, und AFRILANGEDU, einen Datensatz, vor. Diese Ressourcen werden verwendet, um KI-Modelle namens AFRILANGTUTOR für den Spracherwerb in ressourcenarmen afrikanischen Sprachen zu trainieren und die Lücke bei KI-Systemen für lokale Sprachen auf dem afrikanischen Kontinent zu schließen.

27
RESEARCHarXiv CS.CL·5/4/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Eine neue Forschung befasst sich mit der Lücke in der Bewertung des kulturellen Denkens in LLMs und stellt ArabCulture-Dialogue vor, einen kulturell fundierten Konversationsdatensatz, der 13 arabischsprachige Länder abdeckt. Experimente zeigen, dass Modelle bei Aufgaben zum kulturellen Denken, zur Übersetzung und zur Generierung in dialektalen Einstellungen schlechter abschneiden als im modernen Standardarabisch.

27
RESEARCHarXiv CS.LG·vor 18T

Harnesses for Inference-Time Alignment over Execution Trajectories

Diese Forschung untersucht Harness Engineering als Inferenzzeit-Technik für große Sprachmodell-Agenten (LLM), um die Langzeit-Performance durch Aufgabenzerlegung und geführte Ausführung zu verbessern. Sie quantifiziert, wie Designelemente wie Workflow-Granularität und Führung die Leistung beeinflussen, und deckt gängige Fehlerursachen wie Überzerlegung und halluzinierte Ausführung auf.

27
RESEARCHarXiv CS.CL·4/21/2026

Multimodal Claim Extraction for Fact-Checking

Diese Arbeit stellt den ersten Benchmark für die multimodale Anspruchsextraktion aus Social-Media-Beiträgen vor, der für die automatisierte Faktenprüfung unerlässlich ist. Sie bewertet hochmoderne MLLMs und schlägt MICE vor, ein absichtsbewusstes Framework, um Herausforderungen bei der Modellierung rhetorischer Absicht und kontextueller Hinweise zu bewältigen.

27
RESEARCHarXiv CS.CL·4/21/2026

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

LiFT ist ein neuer Rahmen für das Anweisung-Feintuning, der das In-Context-Lernen von LLMs für longitudinale NLP-Aufgaben verbessern soll, die Schlussfolgerungen über zeitlich geordnete Texte erfordern. Er verwendet ein Curriculum, das die temporale Schwierigkeit schrittweise erhöht, Few-Shot-Struktur und temporale Konditionierung integriert und Basemodelle über verschiedene Datensätze und Parametergrößen hinweg durchweg übertrifft.

27
RESEARCHarXiv CS.CL·vor 26T

PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts

Dieser Artikel stellt PEML vor, eine Methode für parameter-effizientes Multi-Task-Lernen mit optimierten kontinuierlichen Prompts für große Sprachmodelle. Sie zielt darauf ab, die Einschränkungen bestehender PEFT-Methoden wie LoRA und Prefix Tuning zu überwinden, indem sie ein effizienteres Fine-Tuning für mehrere Aufgaben ermöglicht und die Ressourcennutzung konsolidiert.

27
RESEARCHarXiv CS.CL·vor 26T

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Dieses Papier stellt Derivation Prompting vor, eine neuartige Prompting-Technik für das Retrieval-Augmented Generation (RAG)-Framework. Die Methode zielt darauf ab, Halluzinationen und fehlerhaftes Denken in großen Sprachmodellen (LLMs) durch die systematische Anwendung vordefinierter Regeln zur Ableitung von Schlussfolgerungen zu reduzieren. Eine Fallstudie zeigte eine signifikante Reduzierung inakzeptabler Antworten im Vergleich zu herkömmlichen RAG-Methoden.

27
RESEARCHarXiv CS.LG·4/24/2026

Reinforcing privacy reasoning in LLMs via normative simulacra from fiction

Dieses Papier schlägt eine neuartige Methode zur Verbesserung des Datenschutz-Reasonings in LLMs vor, indem normative Simulakren aus fiktiven Romanen extrahiert werden. Der Ansatz beinhaltet das Fine-Tuning von LLMs durch überwachtes Lernen gefolgt von GRPO-Reinforcement-Learning, wobei eine zusammengesetzte Belohnungsfunktion verwendet wird, um die Informationshandhabung an die Datenschutz-Erwartungen der Nutzer anzupassen.

27
RESEARCHarXiv CS.CL·5/11/2026

Can LLMs Take Retrieved Information with a Grain of Salt?

Dieser Artikel bewertet die Fähigkeit großer Sprachmodelle (LLMs), ihre Antworten an die Sicherheit der abgerufenen Informationen anzupassen, und deckt systematische Einschränkungen auf. Er schlägt eine Interaktionsstrategie vor, die frühere Erinnerungen, Sicherheitsskalibrierung und Kontextvereinfachung kombiniert, um die Zuverlässigkeit von LLMs zu verbessern. Dieser Ansatz reduziert Gehorsamsfehler um 25%, ohne Modellgewichte zu ändern.

27
RESEARCHarXiv CS.CL·4/24/2026

DWTSumm: Discrete Wavelet Transform for Document Summarization

Diese Forschung schlägt einen auf der Diskreten Wavelet-Transformation (DWT) basierenden Rahmen zur Verbesserung der Dokumentenzusammenfassung vor, insbesondere für lange, domänenspezifische Texte, bei denen LLMs Schwierigkeiten haben. Die Methode erzeugt kompakte Repräsentationen, die die semantische Ähnlichkeit, die Verankerung und die faktische Konsistenz im Vergleich zu einem GPT-4o-Baseline verbessern.

27
RESEARCHarXiv CS.CL·5/11/2026

Reflections and New Directions for Human-Centered Large Language Models

Diese Arbeit stellt ein Framework für die Entwicklung von Human-Centered Large Language Models (HCLLMs) vor, das Perspektiven aus NLP, HCI und verantwortungsvoller KI integriert. Es wird argumentiert, dass menschliche Anliegen, Präferenzen und Werte in jeder Phase der LLM-Entwicklung rigoros berücksichtigt werden müssen, anstatt nur als eine nachgeschaltete Überlegung.

27
RESEARCHarXiv CS.LG·vor 26T

Towards the Next Frontier of LLMs, Training on Private Data: A Cross-Domain Benchmark for Federated Fine-Tuning

Das Papier befasst sich mit der Herausforderung, große Sprachmodelle (LLMs) auf privaten, verteilten Daten zu trainieren, insbesondere in regulierten Sektoren wie dem Gesundheitswesen und dem Finanzwesen. Es schlägt einen praktischen Ansatz vor, um diese wertvollen, aber nicht teilbaren und nicht-IID-Daten zu nutzen, um LLMs mit tieferer Domänenexpertise zu ermöglichen.

27
RESEARCHarXiv CS.CL·5/11/2026

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D ist ein neuer Benchmark für bengalische Social-Media-Daten, der das Verhalten von LLMs bei der Closed-Set-Annotation diagnostizieren soll. Die Untersuchung zeigt ein Phänomen namens „anweisungsinduzierter Label-Kollaps“, bei dem LLMs Standard-Labels bevorzugen und Minderheitskategorien untererfassen.

27
RESEARCHarXiv CS.CL·5/7/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Dieser Artikel bewertet Open-Weight- und domänenangepasste große Sprachmodelle (LLMs) für die Klassifizierung von Konfliktereignissen in Westafrika. Die Studie zeigt, dass Open-Weight-Modelle eine "Falsche Illegitimations"-Voreingenommenheit aufweisen, während domänenangepasste Modelle eine nahezu direktionale Neutralität erreichen, aber eine akteurbezogene Auswahlvoreingenommenheit beibehalten.

27