← heapsort-ai

LLMs

722 items

RESEARCHarXiv CS.LG·5/7/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Diese Forschung stellt EdgeRazor vor, ein leichtgewichtiges Framework zur Bereitstellung großer Sprachmodelle auf ressourcenbeschränkten Geräten. Es nutzt gemischt-präzise quantisierungsbewusste Destillation, um Modelle voller Präzision in Formate mit geringerer Bitrate umzuwandeln und so die Einschränkungen früherer Quantisierungsmethoden zu überwinden.

27
RESEARCHarXiv CS.AI·vor 29T

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ integriert TD($\lambda$)-Berechtigungsspuren mit Gedächtnis-Q-Werten, wobei der Kredit über einen Provenienz-DAG rückwärts propagiert wird, um Gedächtnisabhängigkeiten zu berücksichtigen. Dieser Ansatz verbessert die Fähigkeit von LLM-Agenten, Erfahrungen zu sammeln und abzurufen, erheblich und erzielt hohe Erfolgsraten in verschiedenen Benchmarks.

27
RESEARCHarXiv CS.AI·vor 29T

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Diese Forschung schlägt vor, zwischen der Evozierung von Fähigkeiten und der Schaffung von Fähigkeiten im Post-Training großer Sprachmodelle zu unterscheiden. Sie argumentiert, dass die Evozierung bestehende Verhaltensweisen innerhalb der zugänglichen Unterstützung eines Modells neu gewichtet, während die Schaffung diese Unterstützung selbst verändert, und entwickelt dies durch eine Freie-Energie-Perspektive.

27
RESEARCHarXiv CS.AI·5/11/2026

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Dieses Papier formalisiert Deployment-Time Learning (DTL) als eine neue Phase für LLMs, die es ihnen ermöglicht, sich nach dem Training kontinuierlich aus Erfahrungen anzupassen, ohne Modellparameter zu ändern. Es stellt CASCADE vor, ein Framework, das LLM-Agenten mit einem expliziten, sich entwickelnden episodischen Gedächtnis ausstattet und die Wiederverwendung von Erfahrungen als kontextuelles Bandit-Problem formalisiert.

27
RESEARCHarXiv CS.AI·vor 18T

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Diese Forschung stellt MOOD vor, einen Benchmark zur Untersuchung der Erkennung von Out-Of-Distribution (OOD)-Ausrichtungsfehlern in großen Sprachmodellen (LLMs) mithilfe von Überwachungspipelines. Es wird vorgeschlagen, Schutzmodelle mit OOD-Detektoren zu kombinieren, um die Generalisierung von Sicherheitsklassifikatoren zu verbessern, die in OOD-Szenarien oft versagen.

27
RESEARCHarXiv CS.AI·5/11/2026

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Dieses Papier stellt GraphDC vor, ein Divide-and-Conquer-Multi-Agenten-System, das zur Verbesserung der Graphenalgorithmus-Argumentation in großen Sprachmodellen (LLMs) entwickelt wurde. Es verbessert die Leistung, indem es große Graphen in kleinere Untergraphen für spezialisierte Agenten zerlegt, wobei ein Master-Agent die Ergebnisse integriert, was zu besserer Skalierbarkeit und Robustheit führt.

27
RESEARCHarXiv CS.AI·vor 21T

AgentNLQ: A General-Purpose Agent for Natural Language to SQL

Diese Studie stellt AgentNLQ vor, eine neue Multi-Agenten-Methode für die Konvertierung von natürlicher Sprache in SQL (NL2SQL), die eine semantische Genauigkeit von 78,1% im BIRD-Benchmark erreicht. Sie nutzt LLMs in einem optimierten Orchestrator zur Planung, Reflexion und Selbstkorrektur, um genaue SQL-Abfragen aus angereicherten Schemata und Geschäftsregeln zu generieren.

27
RESEARCHarXiv CS.AI·vor 23T

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Dieses Papier stellt ein neues Paradigma zur interaktiven Bewertung von Verbesserungen der Theory of Mind (ToM) in großen Sprachmodellen (LLMs) für Mensch-KI-Interaktionen vor. Empirische Ergebnisse aus realen Datensätzen und einer Benutzerstudie zeigen, dass ToM-Verbesserungen bei statischen Benchmarks nicht immer zu Vorteilen in dynamischen Mensch-KI-Interaktionen führen.

27
RESEARCHarXiv CS.CL·vor 26T

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Diese Forschung bewertet große Sprachmodelle (LLMs) bei der Beantwortung biomedizinischer Fragen, wobei deren Zuverlässigkeit bei widersprüchlichen oder unvollständigen Beweisen thematisiert wird. Es zeigt sich, dass die Genauigkeit von LLMs erheblich sinkt und Vorhersagen sich ändern, wenn die Reihenfolge korrekter und widersprüchlicher Dokumente vertauscht wird, was Probleme mit Reihenfolgeeffekten und die Notwendigkeit einer konfliktbewussten Enthaltung hervorhebt.

27
RESEARCHarXiv CS.CL·5/11/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Diese Studie präsentiert einen Atlas der domänenbasierten metakognitiven Überwachung bei 33 führenden LLMs, wobei 1.500 MMLU-Items in sechs Domänen analysiert wurden. Sie zeigt erhebliche innerhalbmodellische Variationen auf, wobei angewandtes/professionelles Wissen am einfachsten und formales Denken/Naturwissenschaften am schwierigsten zu überwachen waren.

27
RESEARCHarXiv CS.AI·vor 23T

CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation

Dieses Papier stellt CAX-Agent vor, ein leichtgewichtiges Agenten-Harness zur Verbesserung der Zuverlässigkeit großer Sprachmodelle (LLMs) in MAPDL-Finite-Elemente-Simulationen. Es befasst sich mit inkonsistenten Ausgaben und Aufgabenfehlern durch strukturierte Ausführungssteuerung, Werkzeugkapselung und robuste Fehlerbehebungsmechanismen und evaluiert verschiedene Wiederherstellungsstrategien.

27
RESEARCHarXiv CS.CL·vor 21T

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Dieses Papier argumentiert, dass aktuelle Unsicherheitsquantifizierungs-(UQ)-Methoden für LLMs lediglich unüberwachte Clustering-Algorithmen sind, die die interne Konsistenz der Modellgenerierungen statt deren externe Korrektheit messen. Folglich können diese Methoden „zuversichtliche Halluzinationen“ nicht erkennen und bei der Bereitstellung von LLMs in kritischen Bereichen ein trügerisches Gefühl der Sicherheit erzeugen.

27
RESEARCHarXiv CS.CL·vor 27T

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Mehrsprachige große Sprachmodelle (MLLMs) zeigen oft inkonsistentes Verhalten bei kulturellen Identitäten, wenn die Prompt-Sprache wechselt. Zur Minderung dieses Problems führen Forscher eine neue Metrik und ein konsensbasiertes Ausrichtungs-Framework, C-3PO, ein, das die sprachübergreifende kulturelle Konsistenz signifikant verbessert.

27