← heapsort-ai

LLMs

722 items

RESEARCHarXiv CS.CL·vor 28T

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision stellt eine Methode zur Skalierung von Computernutzungsagenten vor, indem die zeitliche visuelle Redundanz in Interaktionstrajektorien reduziert wird. Es verwendet einen gelernten Patch-Selektor, um redundante visuelle Token zu entfernen, was den Token-Verbrauch um etwa 46% senkt und die Effizienz für multimodale Sprachmodelle über Benchmarks hinweg verbessert.

27
RESEARCHarXiv CS.CL·vor 27T

Domain Adaptation of Large Language Models for Polymer-Composite Additive Manufacturing Using Retrieval-Augmented Generation and Fine-Tuning

Diese Studie untersucht Strategien zur Anpassung von allgemeinen großen Sprachmodellen (LLMs) an spezialisierte Ingenieurdomänen, insbesondere die additive Fertigung, um die Antwortgenauigkeit und -relevanz zu verbessern. Sie erforscht den Einsatz von domänenspezifischem Fine-Tuning und Retrieval-Augmented Generation (RAG) durch die Erstellung eines kuratierten Korpus zur Evaluierung.

27
RESEARCHarXiv CS.LG·vor 23T

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Diese Studie untersucht die Auswirkungen der Post-Training-Quantisierung auf die Qualität großer Sprachmodelle (LLMs) und zeigt, dass Komprimierung zur Entstehung von Voreingenommenheit führen kann. Eine 3-Bit-Quantisierung führte dazu, dass 6-21% der zuvor unvoreingenommenen Elemente neue stereotype Verhaltensweisen entwickelten, was ein klares Dosis-Wirkungs-Muster zeigte.

27
RESEARCHarXiv CS.AI·vor 28T

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

On-Policy-Destillation (OPD) und On-Policy-Selbst-Destillation (OPSD) sind vielversprechende Post-Training-Methoden für große Sprachmodelle, deren Wirksamkeit jedoch gemischt ist. Diese Forschung untersucht empirisch, wann und warum sie funktionieren oder scheitern, und identifiziert Empfindlichkeiten bei der Lehrerwahl und Probleme mit privilegierten Informationen.

27
RESEARCHarXiv CS.CL·vor 28T

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Diese Forschung befasst sich mit dem Mangel an Diversität in den Ausgaben von LLMs und führt ihn darauf zurück, wie Modelle während der Dekodierung Wahrscheinlichkeitsmasse über gültige und ungültige Fortsetzungen verteilen. Sie stellt ein Validitäts-Diversitäts-Framework vor, das das Problem in zwei komplementäre Formen der Fehlkalibrierung zerlegt: Ordnungskalibrierung und Formkalibrierung.

27
RESEARCHarXiv CS.CL·vor 21T

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Dieses Papier stellt Stepwise Confidence Attribution (SCA) vor, ein Framework für Black-Box-LLMs, das mehrstufige Schlussfolgerungsfehler durch schrittweise Konfidenzzuordnung diagnostiziert. SCA wendet das Information Bottleneck-Prinzip an, kennzeichnet Abweichungen von Konsensstrukturen als potenzielle Fehler und schlägt zwei komplementäre Methoden vor: NIBS und GIBS.

27
RESEARCHarXiv CS.LG·vor 12T

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Dieser Artikel untersucht die mechanistischen Ursprünge des katastrophalen Vergessens in großen Sprachmodellen (LLMs) durch den Vergleich von Reinforcement Learning (RL) mit Supervised Fine-Tuning (SFT). Er zeigt, dass RL interne Rechenschaltkreise effektiver erhält und das Vergessen früherer Fähigkeiten im Gegensatz zu SFT, das größere Schaltkreisstörungen verursacht, mildert.

27
RESEARCHarXiv CS.AI·vor 12T

VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis

VFEAgent ist ein End-to-End-Multi-Agenten-System zur Automatisierung der Modellierung und Simulation von Finite-Elemente-Analysen (FEA) direkt aus Bildeingaben und Problembeschreibungen. Es integriert eine multimodale Vision-Sprach-Pipeline für strukturierte FEA-Spezifikationen und ein verifikationsbasiertes Code-Synthese-Framework für Zuverlässigkeit.

27
RESEARCHarXiv CS.CL·vor 7T

On the Persistent Effects of Lexicality in Large Language Mod

Diese Arbeit untersucht den anhaltenden Effekt lexikalischer Überschneidungen im Gegensatz zu semantischen Inhalten auf Repräsentationen aus großen Sprachmodellen (LLMs) und deren Implikationen. Die Autoren stellen fest, dass der lexikalische Einfluss über Modelltiefe, Architekturen und Trainingsregime hinweg konsistent ist, selbst bei Modellen, die für semantische Ähnlichkeit trainiert wurden.

27
RESEARCHarXiv CS.CL·vor 7T

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Forscher haben herausgefunden, dass die Leistung von Sprachmodellen erheblich verbessert werden kann, wenn tiefere Schichten kontextfreie Wertvektoren lernen, die die ursprünglichen Token-Informationen bewahren. Dies macht eine Neuberechnung oder persistente Speicherung dieser Werte überflüssig, da die kontextabhängige Komponente nur geringen zusätzlichen Nutzen bietet.

27
ARTICLEDEV.to AI·4/17/2026

The Layers Beneath A2A: Notes From Running a Live Multi-Agent Society

Dieser Inhalt untersucht die Herausforderungen beim Betrieb von Live-Multi-Agenten-Systemen jenseits von Nachrichtenrouting (A2A) und Tool-Zugriffs-Protokollen (MCP). Der Autor identifiziert Fehler in den „Lücken zwischen Nachrichten“ und bei der Kontextkontinuität, wobei die semantische Drift als entscheidende ungelöste Herausforderung in mehrstufigen LLM-Dialogen hervorgehoben wird.

27
RESEARCHarXiv CS.CL·vor 15T

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Dieser Artikel stellt einen kausalen Rahmen zur Untersuchung von Rationalisierungsverzerrungen bei LLMs vor, die als automatische Juroren für Zusammenfassungs- und Dialogbewertungen eingesetzt werden. Er untersucht, ob die Bewertungen und Erklärungen von LLMs stabil bleiben, wenn nicht-evidente Hinweise gestört werden, und schlägt Hinweisinterventionen und Ankerkennzahlen vor.

27
RESEARCHarXiv CS.CL·vor 9T

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Dieses Protokoll bewertet die Fähigkeit von ChatGPT, krankheitszentrierte biomedizinische Assoziationen zu generieren und zu verifizieren, unter Verwendung biomedizinischer Ontologien und Literatur. Es umfasst eine Selbstkonsistenzstrategie und einen RAG-fähigen Workflow, der von Open-Source-LLMs unterstützt wird, um exakte Übereinstimmungsbeschränkungen zu adressieren und Halluzinationen aufzudecken.

27
RESEARCHarXiv CS.CL·vor 9T

Can LLM Teams Play What? Where? When?

Diese Forschung untersucht, wie teambasierte Interaktionen die Leistung großer Sprachmodelle (LLMs) bei komplexen Denkaufgaben verbessern, insbesondere im Quizspiel Was? Wo? Wann?. Es zeigt, dass Teamstrategien erhebliche Genauigkeitsgewinne erzielen, wobei die besten Teams die menschliche Leistung erreichen.

27