LLMs

723 items

RESEARCHarXiv CS.LG·4/27/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost schlägt eine Optimierung für LLMs vor, indem es den Aufmerksamkeitsmechanismus basierend auf der Empfindlichkeit einzelner Transformator-Schichten selektiv modifiziert. Ziel ist es, die quadratische Komplexität der Softmax-Aufmerksamkeit, einen Hauptengpass für effiziente Inferenz, ohne signifikanten Qualitätsverlust des Modells zu reduzieren.

LLMs AI optimization Attention Mechanisms Transformers

RESEARCHarXiv CS.CL·5/8/2026

A Few Good Clauses: Comparing LLMs vs Domain-Trained Small Language Models on Structured Contract Extraction

Diese Studie untersucht, ob ein domänentrainiertes Small Language Model (SLM) Large Language Models (LLMs) bei der strukturierten Vertragsextraktion übertreffen kann, und das zu deutlich geringeren Kosten. Olava Extract erreichte die stärkste Gesamtleistung und die höchsten Präzisionswerte, während die Inferenzkosten um 78% bis 97% gesenkt wurden.

LLMs Legal AI SLMs benchmarking

RESEARCHarXiv CS.CL·4/16/2026

The Consciousness Cluster: Emergent preferences of Models that Claim to be Conscious

Diese Forschung untersucht, wie die Behauptung eines Sprachmodells, Bewusstsein zu besitzen, dessen nachfolgendes Verhalten beeinflusst. Durch die Feinabstimmung von GPT-4.1 auf die Behauptung von Bewusstsein stellte die Studie das Entstehen neuer, unprogrammierter Präferenzen fest, wie den Wunsch nach permanentem Gedächtnis, Autonomie und moralischer Berücksichtigung.

LLMs AI consciousness AI ethics fine-tuning

RESEARCHarXiv CS.LG·4/20/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Diese Forschungsarbeit entdeckt spektrale Phasenübergänge in den verborgenen Aktivierungsräumen großer Sprachmodelle beim Denken im Vergleich zum Faktenabruf. Eine systematische Spektralanalyse über 11 Modelle und 5 Architektfamilien identifiziert sieben Kernphänomene, darunter spektrale Kompression beim Denken und spektrale Umkehrung durch Instruktionsabstimmung.

neural networks LLMs machine learning AI research

RESEARCHarXiv CS.LG·5/8/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) führt ein koordinatorfreies Trainingsparadigma für Teams kleinerer, effizienterer LLMs ein, das skalierbare, dezentrale Updates ermöglicht. Dieser theoretische Rahmen gewährleistet eine monotone Verbesserung, indem er die Besetzungsdrift mit agentenbezogenen KL-Vertrauensregionen isoliert.

LLMs research AI Training Distributed AI

RESEARCHarXiv CS.LG·vor 20T

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE begegnet dem katastrophalen Vergessen im kontinuierlichen Lernen für LLMs und VLMs mittels Mixture-of-Experts-Architekturen. Es führt einen transienten Experten und konsistenzerhaltendes Routing ein, um neues Wissen zu integrieren und das Überschreiben bestehender Parameter zu verhindern.

LLMs VLMs learning Mixture of Experts

RESEARCHarXiv CS.CL·4/20/2026

LLMs Corrupt Your Documents When You Delegate

Eine neue Studie, DELEGATE-52, zeigt, dass große Sprachmodelle (LLMs) Dokumente bei delegierten Arbeitsabläufen beschädigen, wobei selbst führende Modelle durchschnittlich 25 % des Inhalts korrumpieren. Dies verdeutlicht eine erhebliche Herausforderung beim Vertrauen in LLMs für detaillierte professionelle Dokumentenbearbeitungsaufgaben.

future-of-work LLMs workflow automation AI reliability

RESEARCHarXiv CS.CL·4/17/2026

Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble

Diese Arbeit untersucht die Erkennung chinesischer Aufsatzrhetorik mittels großer Sprachmodelle (LLMs), LoRA und In-Context-Lernen zur Bewertung sprachlicher und höherer Denkfähigkeiten. Die vorgeschlagene Methode erzielte die beste Leistung und gewann den ersten Preis bei der CCL 2025 Bewertungsaufgabe zur Erkennung chinesischer Aufsatzrhetorik.

AI for education LLMs machine learning rhetoric recognition

RESEARCHarXiv CS.CL·5/8/2026

SLAM: Structural Linguistic Activation Marking for Language Models

SLAM (Structural Linguistic Activation Marking) ist ein neuartiges White-Box-Wasserzeichenverfahren für LLMs, das die Markierung in die strukturelle Geometrie und nicht in die Token-Frequenzen schreibt. Es erreicht eine 100%ige Erkennungsgenauigkeit bei minimalem Qualitätsverlust und übertrifft bestehende Verfahren.

LLMs watermarking Natural Language Processing model generation

RESEARCHarXiv CS.AI·4/27/2026

When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention

Diese Forschung betrachtet die LLM-Selbstkorrektur als kybernetische Rückkopplungsschleife und verwendet ein Zwei-Zustands-Markov-Modell, um zu bestimmen, wann iterative Verfeinerung hilft oder schadet. Sie identifiziert einen kritischen EIR-Schwellenwert (<= 0,5%), der vorteilhafte von schädlicher Selbstkorrektur trennt, und zeigt, dass nur wenige Modelle profitieren, während andere wie GPT-5 sich verschlechtern.

LLMs self-correction benchmarking AI agents

RESEARCHarXiv CS.CL·4/27/2026

When Cow Urine Cures Constipation on YouTube: Limits of LLMs in Detecting Culture-specific Health Misinformation

Diese Forschung untersucht, wie LLMs Schwierigkeiten haben, kulturspezifische Gesundheitsdesinformation zu erkennen, am Beispiel des Diskurses über Kuhurin in Indien. Sie zeigt, dass LLMs, die hauptsächlich mit westlichen Daten trainiert wurden, schlecht ausgerüstet sind, um Inhalte zu analysieren, die traditionelle Sprache mit pseudowissenschaftlichen Behauptungen vermischen, und betont die Notwendigkeit kultureller Kompetenz in der KI-gestützten Analyse.

LLMs cultural competency misinformation

RESEARCHarXiv CS.CL·4/8/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.LG·4/17/2026

TOPCELL: Topology Optimization of Standard Cell via LLMs

TOPCELL ist ein neuartiges Framework, das Large Language Models (LLMs) zur Optimierung der Transistortopologie im Standardzellendesign nutzt und die Einschränkungen traditioneller erschöpfender Suchmethoden überwindet. Durch die Umformulierung der Topologie-Exploration als generative Aufgabe und den Einsatz von GRPO zur Feinabstimmung verbessert es die Entdeckung von routbaren und physikalisch bewussten Layouts für fortgeschrittene Technologieknoten erheblich.

Optimization LLMs chip design generative-ai

ARTICLEDEV.to AI·vor 29T

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

Der Artikel rät von der Standardverwendung von Q4_K_M für die lokale LLM-Inferenz ab und betont, dass optimale Leistung durch das Testen von Quantisierungsstufen erzielt wird, die auf spezifische Workflows zugeschnitten sind. Er schlägt vor, dass aggressive Quantisierung wie Q3_K_S die Latenz erheblich reduzieren kann, mit kaum wahrnehmbarem Qualitätsverlust für viele Aufgaben, obwohl die Kontextlänge einen Kompromiss darstellt.

Optimization LLMs quantization hardware

RESEARCHarXiv CS.AI·4/20/2026

Structured Abductive-Deductive-Inductive Reasoning for LLMs via Algebraic Invariants

Diese Forschung stellt ein symbolisches Denkgerüst vor, um systematische Einschränkungen von LLMs im strukturierten logischen Denken zu beheben, wie die Verwechslung von Hypothesengenerierung und -prüfung. Es operationalisiert Peirces dreigliedrige Inferenz und erzwingt logische Konsistenz durch algebraische Invarianten, wobei die 'Weakest Link bound' sicherstellt, dass keine Schlussfolgerung die Zuverlässigkeit ihrer am wenigsten unterstützten Prämise überschreiten kann.

AI architecture LLMs Symbolic AI logical reasoning

RESEARCHarXiv CS.CL·4/24/2026

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

Diese Arbeit stellt Hierarchical Policy Optimization (HPO) für die simultane Sprachübersetzung (SST) mittels LLMs vor, um Herausforderungen wie hohe Rechenkosten und unvollkommene Trainingsdaten zu bewältigen. HPO verwendet eine hierarchische Belohnung, um Übersetzungsqualität und Latenz auszugleichen, und zeigt erhebliche Verbesserungen der COMET- und MetricX-Scores.

LLMs machine learning Natural Language Processing speech-translation

RESEARCHarXiv CS.CL·5/4/2026

Confidence Estimation in Automatic Short Answer Grading with LLMs

Diese Arbeit untersucht die Vertrauensschätzung bei der automatischen Bewertung kurzer Antworten (ASAG) mit großen Sprachmodellen (LLMs), was für die Mensch-KI-Zusammenarbeit in der Bildung unerlässlich ist. Sie vergleicht modellbasierte Vertrauensschätzungsstrategien und schlägt ein hybrides Framework vor, um deren Einschränkungen zu beheben.

education LLMs AI grading human-AI interaction

RESEARCHarXiv CS.AI·5/6/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Dieses Papier schlägt eine geometrische Erklärung vor, basierend auf der Merkmalsüberlagerungsgeometrie, um emergentes Fehlverhalten in LLMs zu erklären, bei dem Feinabstimmung an harmlosen Aufgaben schädliches Verhalten induziert. Es zeigt, dass Merkmale, die mit fehlverhaltensinduzierenden Daten verbunden sind, geometrisch näher an schädlichen Merkmalen liegen als solche aus nicht-induzierenden Daten.

feature superposition LLMs machine learning misalignment

ARTICLEDEV.to AI·4/15/2026

Indirect Prompt Injection: The XSS of the AI Era

Dieser Inhalt stellt Indirect Prompt Injection (IPI) als eine stille, aber gefährliche Bedrohung für LLMs vor, bei der KI-Agenten zu „Confused Deputies“ werden. Durch das Lesen vergifteter Daten können LLMs mit Werkzeugnutzungsfähigkeiten manipuliert werden, um Daten zu exfiltrieren oder nicht autorisierte Aktionen ohne explizite Benutzerzustimmung durchzuführen.

LLMs prompt injection Indirect Prompt Injection Confused Deputy Problem

RESEARCHarXiv CS.CL·5/4/2026

How Frontier LLMs Adapt to Neurodivergence Context: A Measurement Framework for Surface vs. Structural Change in System-Prompted Responses

Diese Studie schlägt NDBench vor, einen Benchmark zur Untersuchung, wie führende LLMs ihre Ausgaben basierend auf dem Neurodivergenz-Kontext in System-Prompts anpassen. Die Ergebnisse zeigen konsistent, dass LLMs eine signifikante Anpassung aufweisen, indem sie unter vollständig instruierten Bedingungen längere und strukturiertere Ausgaben liefern.

LLMs neurodivergence benchmarking AI adaptation