LLMs

723 items

RESEARCHarXiv CS.AI·vor 25T

A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology

Das Papier schlägt eine zweidimensionale Klassifikation für KI-Agenten-Designmuster vor, die kognitive Funktion und Ausführungstopologie kombiniert. Dieser neue Rahmen zielt darauf ab, die Einschränkungen bestehender Systeme zu überwinden, die LLM-basierte Agentenarchitekturen aus einer einzigen Perspektive beschreiben.

LLMs frameworks cognitive AI AI

RESEARCHarXiv CS.CL·4/24/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Dieses Papier stellt TRACES vor, ein leichtgewichtiges Framework zur Optimierung von Sprachbegründungsmodellen (LRMs) durch das Echtzeit-Tagging von Begründungsschritten. Es ermöglicht ein adaptives, kosteneffizientes vorzeitiges Beenden von LRM-Inferenzen und adressiert deren derzeitige Ineffizienz und die Überproduktion von Verifizierungsschritten.

LLMs early stopping Reasoning inference optimization

RESEARCHarXiv CS.AI·5/4/2026

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

Diese Arbeit untersucht minimale, lokale und kausale Erklärungen für den Erfolg von Jailbreak-Angriffen in großen Sprachmodellen (LLMs). Die Forschung befasst sich mit dem mangelnden Verständnis der Anfälligkeit von LLMs für solche Angriffe, die trotz Sicherheitstrainings schädliche Antworten ermöglichen.

LLMs jailbreak security AI safety

RESEARCHarXiv CS.CL·4/24/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Dieses Papier stellt AFRILANGDICT, eine Sammlung afrikanisch-englischer Wörterbucheinträge, und AFRILANGEDU, einen Datensatz, vor. Diese Ressourcen werden verwendet, um KI-Modelle namens AFRILANGTUTOR für den Spracherwerb in ressourcenarmen afrikanischen Sprachen zu trainieren und die Lücke bei KI-Systemen für lokale Sprachen auf dem afrikanischen Kontinent zu schließen.

LLMs language education Africa Low-resource languages

RESEARCHarXiv CS.CL·5/4/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Eine neue Forschung befasst sich mit der Lücke in der Bewertung des kulturellen Denkens in LLMs und stellt ArabCulture-Dialogue vor, einen kulturell fundierten Konversationsdatensatz, der 13 arabischsprachige Länder abdeckt. Experimente zeigen, dass Modelle bei Aufgaben zum kulturellen Denken, zur Übersetzung und zur Generierung in dialektalen Einstellungen schlechter abschneiden als im modernen Standardarabisch.

LLMs Arabic dialects cultural reasoning benchmarking

RESEARCHarXiv CS.AI·vor 18T

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom ist ein Framework zur Synthese von Reasoning-Daten auf Frontier-Ebene, das die begrenzte Diversität und instabile Schwierigkeitskontrolle bestehender Methoden angeht. Es zerlegt Problemlösungen in „Thought Mode Chains“ und trainiert ein Retrieval-Modell, um den Reasoning-Prozess zu leiten.

data synthesis Thought Modes LLMs AI frameworks

RESEARCHarXiv CS.LG·vor 18T

Harnesses for Inference-Time Alignment over Execution Trajectories

Diese Forschung untersucht Harness Engineering als Inferenzzeit-Technik für große Sprachmodell-Agenten (LLM), um die Langzeit-Performance durch Aufgabenzerlegung und geführte Ausführung zu verbessern. Sie quantifiziert, wie Designelemente wie Workflow-Granularität und Führung die Leistung beeinflussen, und deckt gängige Fehlerursachen wie Überzerlegung und halluzinierte Ausführung auf.

inference LLMs machine learning Task Decomposition

RESEARCHarXiv CS.CL·4/21/2026

Multimodal Claim Extraction for Fact-Checking

Diese Arbeit stellt den ersten Benchmark für die multimodale Anspruchsextraktion aus Social-Media-Beiträgen vor, der für die automatisierte Faktenprüfung unerlässlich ist. Sie bewertet hochmoderne MLLMs und schlägt MICE vor, ein absichtsbewusstes Framework, um Herausforderungen bei der Modellierung rhetorischer Absicht und kontextueller Hinweise zu bewältigen.

multimodal AI LLMs social media misinformation

RESEARCHarXiv CS.CL·4/21/2026

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

LiFT ist ein neuer Rahmen für das Anweisung-Feintuning, der das In-Context-Lernen von LLMs für longitudinale NLP-Aufgaben verbessern soll, die Schlussfolgerungen über zeitlich geordnete Texte erfordern. Er verwendet ein Curriculum, das die temporale Schwierigkeit schrittweise erhöht, Few-Shot-Struktur und temporale Konditionierung integriert und Basemodelle über verschiedene Datensätze und Parametergrößen hinweg durchweg übertrifft.

LLMs temporal reasoning Natural Language Processing in-context learning

RESEARCHarXiv CS.CL·vor 26T

PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts

Dieser Artikel stellt PEML vor, eine Methode für parameter-effizientes Multi-Task-Lernen mit optimierten kontinuierlichen Prompts für große Sprachmodelle. Sie zielt darauf ab, die Einschränkungen bestehender PEFT-Methoden wie LoRA und Prefix Tuning zu überwinden, indem sie ein effizienteres Fine-Tuning für mehrere Aufgaben ermöglicht und die Ressourcennutzung konsolidiert.

Resource efficiency multi-task learning LLMs Prompt tuning

RESEARCHarXiv CS.CL·vor 26T

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Dieses Papier stellt Derivation Prompting vor, eine neuartige Prompting-Technik für das Retrieval-Augmented Generation (RAG)-Framework. Die Methode zielt darauf ab, Halluzinationen und fehlerhaftes Denken in großen Sprachmodellen (LLMs) durch die systematische Anwendung vordefinierter Regeln zur Ableitung von Schlussfolgerungen zu reduzieren. Eine Fallstudie zeigte eine signifikante Reduzierung inakzeptabler Antworten im Vergleich zu herkömmlichen RAG-Methoden.

LLMs RAG Prompting Natural Language Processing

RESEARCHarXiv CS.LG·4/24/2026

Reinforcing privacy reasoning in LLMs via normative simulacra from fiction

Dieses Papier schlägt eine neuartige Methode zur Verbesserung des Datenschutz-Reasonings in LLMs vor, indem normative Simulakren aus fiktiven Romanen extrahiert werden. Der Ansatz beinhaltet das Fine-Tuning von LLMs durch überwachtes Lernen gefolgt von GRPO-Reinforcement-Learning, wobei eine zusammengesetzte Belohnungsfunktion verwendet wird, um die Informationshandhabung an die Datenschutz-Erwartungen der Nutzer anzupassen.

LLMs privacy security machine learning

RESEARCHarXiv CS.CL·5/7/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Diese Forschung stellt Adaptive Power-Mean Policy Optimization (APMPO) vor, um die Schlussfolgerungsfähigkeiten von Großen Sprachmodellen (LLMs) mittels RLVR zu verbessern. APMPO kombiniert ein verallgemeinertes Potenzmittel-Ziel und adaptives Clipping, um die Lerndynamik und Leistung zu optimieren.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHarXiv CS.CL·vor 8T

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

Die Langkontext-Dekodierung in Large Language Models (LLMs) wird stark durch die Speicherbandbreite des Key-Value (KV)-Caches eingeschränkt. Dieses Papier schlägt Attention Run-time Termination (ART) vor, einen leichtgewichtigen Mechanismus, der den KV-Cache-Zugriff optimiert und einen um 20% höheren Generierungsdurchsatz erzielt.

LLMs memory management decoding performance

RESEARCHarXiv CS.CL·5/11/2026

Can LLMs Take Retrieved Information with a Grain of Salt?

Dieser Artikel bewertet die Fähigkeit großer Sprachmodelle (LLMs), ihre Antworten an die Sicherheit der abgerufenen Informationen anzupassen, und deckt systematische Einschränkungen auf. Er schlägt eine Interaktionsstrategie vor, die frühere Erinnerungen, Sicherheitsskalibrierung und Kontextvereinfachung kombiniert, um die Zuverlässigkeit von LLMs zu verbessern. Dieser Ansatz reduziert Gehorsamsfehler um 25%, ohne Modellgewichte zu ändern.

LLMs context certainty Natural Language Processing AI reliability

RESEARCHarXiv CS.CL·4/24/2026

DWTSumm: Discrete Wavelet Transform for Document Summarization

Diese Forschung schlägt einen auf der Diskreten Wavelet-Transformation (DWT) basierenden Rahmen zur Verbesserung der Dokumentenzusammenfassung vor, insbesondere für lange, domänenspezifische Texte, bei denen LLMs Schwierigkeiten haben. Die Methode erzeugt kompakte Repräsentationen, die die semantische Ähnlichkeit, die Verankerung und die faktische Konsistenz im Vergleich zu einem GPT-4o-Baseline verbessern.

LLMs wavelet transform NLP Document Summarization

RESEARCHarXiv CS.CL·5/11/2026

Reflections and New Directions for Human-Centered Large Language Models

Diese Arbeit stellt ein Framework für die Entwicklung von Human-Centered Large Language Models (HCLLMs) vor, das Perspektiven aus NLP, HCI und verantwortungsvoller KI integriert. Es wird argumentiert, dass menschliche Anliegen, Präferenzen und Werte in jeder Phase der LLM-Entwicklung rigoros berücksichtigt werden müssen, anstatt nur als eine nachgeschaltete Überlegung.

LLMs HCI NLP AI ethics

RESEARCHarXiv CS.LG·vor 26T

Towards the Next Frontier of LLMs, Training on Private Data: A Cross-Domain Benchmark for Federated Fine-Tuning

Das Papier befasst sich mit der Herausforderung, große Sprachmodelle (LLMs) auf privaten, verteilten Daten zu trainieren, insbesondere in regulierten Sektoren wie dem Gesundheitswesen und dem Finanzwesen. Es schlägt einen praktischen Ansatz vor, um diese wertvollen, aber nicht teilbaren und nicht-IID-Daten zu nutzen, um LLMs mit tieferer Domänenexpertise zu ermöglichen.

LLMs private data privacy benchmarking

RESEARCHarXiv CS.CL·5/11/2026

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D ist ein neuer Benchmark für bengalische Social-Media-Daten, der das Verhalten von LLMs bei der Closed-Set-Annotation diagnostizieren soll. Die Untersuchung zeigt ein Phänomen namens „anweisungsinduzierter Label-Kollaps“, bei dem LLMs Standard-Labels bevorzugen und Minderheitskategorien untererfassen.

LLMs Natural Language Processing Data Annotation benchmarks

RESEARCHarXiv CS.CL·5/7/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Dieser Artikel bewertet Open-Weight- und domänenangepasste große Sprachmodelle (LLMs) für die Klassifizierung von Konfliktereignissen in Westafrika. Die Studie zeigt, dass Open-Weight-Modelle eine "Falsche Illegitimations"-Voreingenommenheit aufweisen, während domänenangepasste Modelle eine nahezu direktionale Neutralität erreichen, aber eine akteurbezogene Auswahlvoreingenommenheit beibehalten.

LLMs Model Evaluation Conflict Monitoring Humanitarian Accountability