LLMs

722 items

RESEARCHarXiv CS.LG·5/7/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Diese Forschung stellt EdgeRazor vor, ein leichtgewichtiges Framework zur Bereitstellung großer Sprachmodelle auf ressourcenbeschränkten Geräten. Es nutzt gemischt-präzise quantisierungsbewusste Destillation, um Modelle voller Präzision in Formate mit geringerer Bitrate umzuwandeln und so die Einschränkungen früherer Quantisierungsmethoden zu überwinden.

LLMs deep learning quantization model optimization

RESEARCHarXiv CS.AI·vor 29T

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ integriert TD($\lambda$)-Berechtigungsspuren mit Gedächtnis-Q-Werten, wobei der Kredit über einen Provenienz-DAG rückwärts propagiert wird, um Gedächtnisabhängigkeiten zu berücksichtigen. Dieser Ansatz verbessert die Fähigkeit von LLM-Agenten, Erfahrungen zu sammeln und abzurufen, erheblich und erzielt hohe Erfolgsraten in verschiedenen Benchmarks.

memory systems LLMs machine learning Q-learning

RESEARCHarXiv CS.AI·vor 18T

SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?

Der Artikel stellt SMDD-Bench vor, einen neuen Multi-Turn-Benchmark mit 502 lösbaren Aufgaben zur Bewertung der Leistung von LLM-Agenten im realen Design von niedermolekularen Medikamenten. Ziel ist es, die Bewertung über verschiedene Chemikalien und Targets zu standardisieren, was ein starkes chemisches, biologisches und 3D-Verständnis erfordert.

LLMs Scientific Discovery benchmarks drug design

RESEARCHarXiv CS.AI·vor 29T

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Diese Forschung schlägt vor, zwischen der Evozierung von Fähigkeiten und der Schaffung von Fähigkeiten im Post-Training großer Sprachmodelle zu unterscheiden. Sie argumentiert, dass die Evozierung bestehende Verhaltensweisen innerhalb der zugänglichen Unterstützung eines Modells neu gewichtet, während die Schaffung diese Unterstützung selbst verändert, und entwickelt dies durch eine Freie-Energie-Perspektive.

LLMs AI capabilities Machine Learning Theory learning

RESEARCHarXiv CS.LG·vor 8T

A Shared Valence Axis Across Modern LLMs and Human EEG: The Saturation Regularity

Diese Forschung untersucht, ob LLMs als Linse zum Verständnis neuronaler Repräsentationen emotionaler Valenz im menschlichen Gehirn mittels EEG dienen können. Die Studie konstruiert eine Valenzachse aus LLMs und zeigt deren Abbildung auf die menschliche neuronale Aktivität, was auf eine geteilte Repräsentation hindeutet.

LLMs emotion Neuroscience Cognition

RESEARCHarXiv CS.AI·5/11/2026

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Dieses Papier formalisiert Deployment-Time Learning (DTL) als eine neue Phase für LLMs, die es ihnen ermöglicht, sich nach dem Training kontinuierlich aus Erfahrungen anzupassen, ohne Modellparameter zu ändern. Es stellt CASCADE vor, ein Framework, das LLM-Agenten mit einem expliziten, sich entwickelnden episodischen Gedächtnis ausstattet und die Wiederverwendung von Erfahrungen als kontextuelles Bandit-Problem formalisiert.

LLMs adaptation machine learning AI deployment

RESEARCHarXiv CS.AI·vor 18T

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Diese Forschung stellt MOOD vor, einen Benchmark zur Untersuchung der Erkennung von Out-Of-Distribution (OOD)-Ausrichtungsfehlern in großen Sprachmodellen (LLMs) mithilfe von Überwachungspipelines. Es wird vorgeschlagen, Schutzmodelle mit OOD-Detektoren zu kombinieren, um die Generalisierung von Sicherheitsklassifikatoren zu verbessern, die in OOD-Szenarien oft versagen.

Model Monitoring OOD Detection LLMs benchmarking

RESEARCHarXiv CS.AI·5/11/2026

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Dieses Papier stellt GraphDC vor, ein Divide-and-Conquer-Multi-Agenten-System, das zur Verbesserung der Graphenalgorithmus-Argumentation in großen Sprachmodellen (LLMs) entwickelt wurde. Es verbessert die Leistung, indem es große Graphen in kleinere Untergraphen für spezialisierte Agenten zerlegt, wobei ein Master-Agent die Ergebnisse integriert, was zu besserer Skalierbarkeit und Robustheit führt.

LLMs scalable AI AI Reasoning multi-agent systems

RESEARCHarXiv CS.LG·vor 18T

Predicting Performance of Symbolic and Prompt Programs with Examples

Diese Forschungsarbeit stellt ein Münzwurfmodell zur Vorhersage der Leistung symbolischer und promptbasierter LLM-Programme vor, basierend auf wenigen Beispielen und einer Leistungspriorität. Es zeigt sich, dass symbolische Programme eine „Alles-oder-Nichts“-Leistungspriorität aufweisen, während Prompt-Programme eine diffuse Priorität haben.

LLMs prompt-engineering Symbolic AI machine learning

RESEARCHarXiv CS.AI·vor 29T

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Diese Arbeit untersucht, wie LLMs im Kontext lernen, indem sie eine Graph-Zufallswanderungsaufgabe verwendet, um zu erforschen, ob sie Muster abgleichen oder latente Strukturen ableiten. Es zeigt sich, dass keine Erklärung allein ausreicht, und präsentiert Beweise für die gleichzeitige Kodierung von Graphtopologien und kausale Interventionen.

LLMs learning interpretability graph learning

RESEARCHarXiv CS.AI·vor 21T

AgentNLQ: A General-Purpose Agent for Natural Language to SQL

Diese Studie stellt AgentNLQ vor, eine neue Multi-Agenten-Methode für die Konvertierung von natürlicher Sprache in SQL (NL2SQL), die eine semantische Genauigkeit von 78,1% im BIRD-Benchmark erreicht. Sie nutzt LLMs in einem optimierten Orchestrator zur Planung, Reflexion und Selbstkorrektur, um genaue SQL-Abfragen aus angereicherten Schemata und Geschäftsregeln zu generieren.

LLMs benchmarking NL2SQL database

RESEARCHarXiv CS.AI·vor 23T

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Dieses Papier stellt ein neues Paradigma zur interaktiven Bewertung von Verbesserungen der Theory of Mind (ToM) in großen Sprachmodellen (LLMs) für Mensch-KI-Interaktionen vor. Empirische Ergebnisse aus realen Datensätzen und einer Benutzerstudie zeigen, dass ToM-Verbesserungen bei statischen Benchmarks nicht immer zu Vorteilen in dynamischen Mensch-KI-Interaktionen führen.

LLMs evaluation human-AI interaction empirical study

RESEARCHarXiv CS.CL·vor 26T

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Diese Forschung bewertet große Sprachmodelle (LLMs) bei der Beantwortung biomedizinischer Fragen, wobei deren Zuverlässigkeit bei widersprüchlichen oder unvollständigen Beweisen thematisiert wird. Es zeigt sich, dass die Genauigkeit von LLMs erheblich sinkt und Vorhersagen sich ändern, wenn die Reihenfolge korrekter und widersprüchlicher Dokumente vertauscht wird, was Probleme mit Reihenfolgeeffekten und die Notwendigkeit einer konfliktbewussten Enthaltung hervorhebt.

LLMs evaluation Reliability Biomedical AI

RESEARCHarXiv CS.CL·5/11/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Diese Studie präsentiert einen Atlas der domänenbasierten metakognitiven Überwachung bei 33 führenden LLMs, wobei 1.500 MMLU-Items in sechs Domänen analysiert wurden. Sie zeigt erhebliche innerhalbmodellische Variationen auf, wobei angewandtes/professionelles Wissen am einfachsten und formales Denken/Naturwissenschaften am schwierigsten zu überwachen waren.

LLMs Metacognition cognitive AI benchmarks

RESEARCHarXiv CS.AI·vor 23T

CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation

Dieses Papier stellt CAX-Agent vor, ein leichtgewichtiges Agenten-Harness zur Verbesserung der Zuverlässigkeit großer Sprachmodelle (LLMs) in MAPDL-Finite-Elemente-Simulationen. Es befasst sich mit inkonsistenten Ausgaben und Aufgabenfehlern durch strukturierte Ausführungssteuerung, Werkzeugkapselung und robuste Fehlerbehebungsmechanismen und evaluiert verschiedene Wiederherstellungsstrategien.

LLMs simulation automation fault tolerance

RESEARCHarXiv CS.CL·vor 21T

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Dieses Papier argumentiert, dass aktuelle Unsicherheitsquantifizierungs-(UQ)-Methoden für LLMs lediglich unüberwachte Clustering-Algorithmen sind, die die interne Konsistenz der Modellgenerierungen statt deren externe Korrektheit messen. Folglich können diese Methoden „zuversichtliche Halluzinationen“ nicht erkennen und bei der Bereitstellung von LLMs in kritischen Bereichen ein trügerisches Gefühl der Sicherheit erzeugen.

LLMs uncertainty quantification hallucinations AI safety

RESEARCHarXiv CS.LG·vor 8T

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Dieses Papier untersucht das Tool-Calling in großen Sprachmodell-Agenten (LLMs) hinsichtlich Effektivität und Effizienz. Es zeigt, dass Evaluationspipelines sensibel auf Implementierungsentscheidungen reagieren und identifiziert Rechenverschwendung beim Reinforcement Learning-Training.

LLMs evaluation reinforcement learning tool-calling

RESEARCHarXiv CS.CL·vor 27T

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Mehrsprachige große Sprachmodelle (MLLMs) zeigen oft inkonsistentes Verhalten bei kulturellen Identitäten, wenn die Prompt-Sprache wechselt. Zur Minderung dieses Problems führen Forscher eine neue Metrik und ein konsensbasiertes Ausrichtungs-Framework, C-3PO, ein, das die sprachübergreifende kulturelle Konsistenz signifikant verbessert.

Multilingual AI LLMs AI alignment Cultural Bias

RESEARCHarXiv CS.CL·vor 27T

ToolWeave: Structured Synthesis of Complex Multi-Turn Tool-Calling Dialogues

ToolWeave ist ein strukturiertes Framework zur Synthese realistischer Multi-Turn-Tool-Calling-Dialoge, die für LLMs als autonome Agenten unerlässlich sind. Es behebt Herausforderungen bei der bestehenden synthetischen Datengenerierung, indem es realistische Mehrschritt-Workflows unterstützt und Parameterhalluzinationen reduziert.

data synthesis LLMs tool-calling dialogue systems

CASEDEV.to AI·4/28/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Dieser Inhalt beschreibt die Erstellung eines autonomen 24/7 KI-Agenten-Systems auf einem $6/Monat VPS, das OpenClaw, DeepSeek V4 Pro und Playwright zur Automatisierung nutzt. Das System verwaltet Social-Media-Posts, Dev.to-Artikel und einen Gumroad-Shop und zeigt kostengünstige sowie effiziente KI-Automatisierung auf.

LLMs DevOps Cost Optimization automation