LLMs

722 items

RESEARCHarXiv CS.CL·vor 28T

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision stellt eine Methode zur Skalierung von Computernutzungsagenten vor, indem die zeitliche visuelle Redundanz in Interaktionstrajektorien reduziert wird. Es verwendet einen gelernten Patch-Selektor, um redundante visuelle Token zu entfernen, was den Token-Verbrauch um etwa 46% senkt und die Effizienz für multimodale Sprachmodelle über Benchmarks hinweg verbessert.

multimodal AI LLMs efficiency computer vision

RESEARCHarXiv CS.CL·vor 27T

Domain Adaptation of Large Language Models for Polymer-Composite Additive Manufacturing Using Retrieval-Augmented Generation and Fine-Tuning

Diese Studie untersucht Strategien zur Anpassung von allgemeinen großen Sprachmodellen (LLMs) an spezialisierte Ingenieurdomänen, insbesondere die additive Fertigung, um die Antwortgenauigkeit und -relevanz zu verbessern. Sie erforscht den Einsatz von domänenspezifischem Fine-Tuning und Retrieval-Augmented Generation (RAG) durch die Erstellung eines kuratierten Korpus zur Evaluierung.

LLMs RAG Additive Manufacturing Domain Adaptation

RESEARCHarXiv CS.LG·vor 23T

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Diese Studie untersucht die Auswirkungen der Post-Training-Quantisierung auf die Qualität großer Sprachmodelle (LLMs) und zeigt, dass Komprimierung zur Entstehung von Voreingenommenheit führen kann. Eine 3-Bit-Quantisierung führte dazu, dass 6-21% der zuvor unvoreingenommenen Elemente neue stereotype Verhaltensweisen entwickelten, was ein klares Dosis-Wirkungs-Muster zeigte.

Model Compression LLMs quantization model quality

RESEARCHarXiv CS.AI·vor 28T

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

On-Policy-Destillation (OPD) und On-Policy-Selbst-Destillation (OPSD) sind vielversprechende Post-Training-Methoden für große Sprachmodelle, deren Wirksamkeit jedoch gemischt ist. Diese Forschung untersucht empirisch, wann und warum sie funktionieren oder scheitern, und identifiziert Empfindlichkeiten bei der Lehrerwahl und Probleme mit privilegierten Informationen.

LLMs distillation learning machine learning

RESEARCHarXiv CS.CL·vor 28T

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Diese Forschung befasst sich mit dem Mangel an Diversität in den Ausgaben von LLMs und führt ihn darauf zurück, wie Modelle während der Dekodierung Wahrscheinlichkeitsmasse über gültige und ungültige Fortsetzungen verteilen. Sie stellt ein Validitäts-Diversitäts-Framework vor, das das Problem in zwei komplementäre Formen der Fehlkalibrierung zerlegt: Ordnungskalibrierung und Formkalibrierung.

Calibration diversity LLMs decoding

RESEARCHarXiv CS.CL·vor 21T

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Dieses Papier stellt Stepwise Confidence Attribution (SCA) vor, ein Framework für Black-Box-LLMs, das mehrstufige Schlussfolgerungsfehler durch schrittweise Konfidenzzuordnung diagnostiziert. SCA wendet das Information Bottleneck-Prinzip an, kennzeichnet Abweichungen von Konsensstrukturen als potenzielle Fehler und schlägt zwei komplementäre Methoden vor: NIBS und GIBS.

LLMs information bottleneck Reasoning confidence estimation

ARTICLEDEV.to AI·4/21/2026

Hermes Agent v0.10: Local AGI Stack & Browser Guide

Hermes Agent v0.10 wurde veröffentlicht und konzentriert sich auf die lokale KI-Bereitstellung mit Ollama-Integration und verbesserter Browser-Automatisierung. Dieses Update ist für Entwickler wichtig, die KI-Agenten ohne API-Kosten und mit Mehrprofil-Browsersteuerung ausführen möchten.

LLMs Local AI browser automation developer tools

RESEARCHarXiv CS.AI·vor 12T

Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild

Die Studie analysiert die Gesprächsverläufe von etwa 12.000 Microsoft Bing Copilot-Nutzern und vergleicht sie mit Daten von WildChat-4.8M. Es zeigt sich, dass trotz bevölkerungsweiter Trends die individuellen Nutzergewohnheiten überwiegend hartnäckig sind und sich im Laufe der Zeit kaum ändern.

LLMs Longitudinal Study user behavior Conversational AI

RESEARCHarXiv CS.CL·vor 19T

Does Slightly Mean Somewhat? Measuring Vague Intensity Words in LLM Numeric Actions

Diese Studie untersucht, wie große Sprachmodelle (LLMs), insbesondere Claude Haiku, vage Intensitätswörter interpretieren, wenn sie numerische Aktionen erzeugen. Die Forschung zeigt, dass das Modell 10 Intensitätswörter in 5 unterschiedliche mediale Ausgaben komprimiert und vom aktuellen Systemzustand beeinflusst wird.

LLMs language interpretation numeric actions NLP

RESEARCHarXiv CS.LG·vor 12T

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Dieser Artikel untersucht die mechanistischen Ursprünge des katastrophalen Vergessens in großen Sprachmodellen (LLMs) durch den Vergleich von Reinforcement Learning (RL) mit Supervised Fine-Tuning (SFT). Er zeigt, dass RL interne Rechenschaltkreise effektiver erhält und das Vergessen früherer Fähigkeiten im Gegensatz zu SFT, das größere Schaltkreisstörungen verursacht, mildert.

LLMs deep learning machine learning Catastrophic Forgetting

RESEARCHarXiv CS.AI·vor 12T

VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis

VFEAgent ist ein End-to-End-Multi-Agenten-System zur Automatisierung der Modellierung und Simulation von Finite-Elemente-Analysen (FEA) direkt aus Bildeingaben und Problembeschreibungen. Es integriert eine multimodale Vision-Sprach-Pipeline für strukturierte FEA-Spezifikationen und ein verifikationsbasiertes Code-Synthese-Framework für Zuverlässigkeit.

Engineering Automation multimodal AI LLMs Finite Element Analysis

RESEARCHarXiv CS.CL·vor 7T

On the Persistent Effects of Lexicality in Large Language Mod

Diese Arbeit untersucht den anhaltenden Effekt lexikalischer Überschneidungen im Gegensatz zu semantischen Inhalten auf Repräsentationen aus großen Sprachmodellen (LLMs) und deren Implikationen. Die Autoren stellen fest, dass der lexikalische Einfluss über Modelltiefe, Architekturen und Trainingsregime hinweg konsistent ist, selbst bei Modellen, die für semantische Ähnlichkeit trainiert wurden.

LLMs lexicality NLP semantic analysis

RESEARCHarXiv CS.CL·vor 7T

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Forscher haben herausgefunden, dass die Leistung von Sprachmodellen erheblich verbessert werden kann, wenn tiefere Schichten kontextfreie Wertvektoren lernen, die die ursprünglichen Token-Informationen bewahren. Dies macht eine Neuberechnung oder persistente Speicherung dieser Werte überflüssig, da die kontextabhängige Komponente nur geringen zusätzlichen Nutzen bietet.

neural networks LLMs deep learning Attention Mechanism

ARTICLEDEV.to AI·4/17/2026

The Layers Beneath A2A: Notes From Running a Live Multi-Agent Society

Dieser Inhalt untersucht die Herausforderungen beim Betrieb von Live-Multi-Agenten-Systemen jenseits von Nachrichtenrouting (A2A) und Tool-Zugriffs-Protokollen (MCP). Der Autor identifiziert Fehler in den „Lücken zwischen Nachrichten“ und bei der Kontextkontinuität, wobei die semantische Drift als entscheidende ungelöste Herausforderung in mehrstufigen LLM-Dialogen hervorgehoben wird.

LLMs AI protocols AI challenges multi-agent systems

RESEARCHarXiv CS.CL·vor 15T

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Dieser Artikel stellt einen kausalen Rahmen zur Untersuchung von Rationalisierungsverzerrungen bei LLMs vor, die als automatische Juroren für Zusammenfassungs- und Dialogbewertungen eingesetzt werden. Er untersucht, ob die Bewertungen und Erklärungen von LLMs stabil bleiben, wenn nicht-evidente Hinweise gestört werden, und schlägt Hinweisinterventionen und Ankerkennzahlen vor.

LLMs evaluation AI rationalization

RESEARCHarXiv CS.CL·vor 9T

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Dieses Protokoll bewertet die Fähigkeit von ChatGPT, krankheitszentrierte biomedizinische Assoziationen zu generieren und zu verifizieren, unter Verwendung biomedizinischer Ontologien und Literatur. Es umfasst eine Selbstkonsistenzstrategie und einen RAG-fähigen Workflow, der von Open-Source-LLMs unterstützt wird, um exakte Übereinstimmungsbeschränkungen zu adressieren und Halluzinationen aufzudecken.

LLMs evaluation ChatGPT RAG

RESEARCHarXiv CS.LG·vor 9T

LLMs Without Deep Neural Networks: New Architecture, Benefits and Case Study

Dieser Artikel präsentiert eine neuartige Architektur für LLMs, die ohne tiefe neuronale Netze auskommt. Das vorgeschlagene Modell, basierend auf erweiterten RBF-Netzwerken, findet das globale Optimum der Verlustfunktion in einem einzigen Iterationsschritt, wodurch der aufwendige Trainingsprozess entfällt.

neural networks AI architecture LLMs machine learning

RESEARCHarXiv CS.AI·vor 15T

BODHI: Precise OS Kernel Specification Inference

Dieses Papier stellt BODHI vor, eine Domänenwissens-Prompting-Methode zur Inferenz von Betriebssystemkernel-Spezifikationen, um aktuelle LLM-Einschränkungen zu überwinden. Sie erweitert den Standard-Few-Shot-Prompt mit einem strukturierten C-zu-Python-Übersetzungsleitfaden und verbessert die Automatisierung und Spezifikationsgenauigkeit.

AI models LLMs operating systems Formal verification

RESEARCHarXiv CS.AI·vor 9T

MAVEN: Improving Generalization in Agentic Tool Calling

MAVEN (Modular Agentic Verification and Execution Network) ist ein leichtes symbolisches Reasoning-Gerüst zur Verbesserung der Generalisierung in agentischen Tool-Calling-Umgebungen. Es wurde auf etablierten Benchmarks evaluiert und führt MAVEN-Bench ein, einen neuen Stresstest-Benchmark für mehrstufiges mathematisches und physikalisches Reasoning.

LLMs Generalization tool-calling benchmarking

RESEARCHarXiv CS.CL·vor 9T

Can LLM Teams Play What? Where? When?

Diese Forschung untersucht, wie teambasierte Interaktionen die Leistung großer Sprachmodelle (LLMs) bei komplexen Denkaufgaben verbessern, insbesondere im Quizspiel Was? Wo? Wann?. Es zeigt, dass Teamstrategien erhebliche Genauigkeitsgewinne erzielen, wobei die besten Teams die menschliche Leistung erreichen.

LLMs team strategies benchmarking Reasoning