← heapsort-ai

research

78 items

RESEARCHarXiv CS.LG·5/1/2026

When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

Diese Studie untersucht die Rolle des externen Speichers in LLM-Agenten für kontinuierliches Lernen und zeigt, dass das Stabilitäts-Plastizitäts-Dilemma bei begrenzten Kontextfenstern auf die Speicherebene verlagert wird. Ein (k,v)-Framework wird eingeführt, um die Darstellung und Organisation von Erfahrungen zu entflechten, wobei festgestellt wird, dass abstrakte prozedurale Erinnerungen zuverlässiger übertragen werden und eine feinere Speicherorganisation vorteilhaft ist.

27
RESEARCHarXiv CS.LG·5/8/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) führt ein koordinatorfreies Trainingsparadigma für Teams kleinerer, effizienterer LLMs ein, das skalierbare, dezentrale Updates ermöglicht. Dieser theoretische Rahmen gewährleistet eine monotone Verbesserung, indem er die Besetzungsdrift mit agentenbezogenen KL-Vertrauensregionen isoliert.

27
RESEARCHarXiv CS.CL·vor 21T

Exploring Lightweight Large Language Models for Court View Generation

Die Forschung untersucht die Fähigkeiten leichter Large Language Models (LLMs) bei der Generierung von Gerichtsansichten (CVG) und deren Einfluss auf die Anklagevorhersage in der Rechts-KI. Sie untersucht systematisch Architekturen, LLM-Größen und vergleicht sie mit Deep Neural Networks, wobei sie auch das CVGEvalKit-Framework einführt.

27
RESEARCHarXiv CS.AI·vor 17T

AOP-Wiki EMOD 3.0: Data Model Expansions and Content Evaluation Framework for Using Agentic AI to Improve Integration between AOPs and New Approach Methodologies (NAMs)

Dieser Artikel stellt AOP-Wiki EMOD 3.0 vor, der sich auf die Erweiterung des Datenmodells und ein Rahmenwerk zur Inhaltsbewertung konzentriert. Er nutzt agentische KI, um die Integration zwischen Adverse Outcome Pathways (AOPs) und New Approach Methodologies (NAMs) zu verbessern und aktuelle Einschränkungen in der AOP-Wiki-Infrastruktur für weiteres Wachstum zu beheben.

27
RESEARCHarXiv CS.AI·vor 29T

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

LLM-basierte Agenten haben die künstliche Intelligenz neu gestaltet, doch die Forschung zu Speichermechanismen bleibt fragmentiert. Diese Umfrage schlägt einen neuartigen evolutionären Rahmen für LLM-Agenten-Speichermechanismen vor, der den Entwicklungsprozess in drei Stufen formalisiert: Speicherung, Reflexion und Erfahrung.

27
RESEARCHarXiv CS.AI·vor 22T

NOVA: Fundamental Limits of Knowledge Discovery Through AI

Das NOVA-Framework modelliert die Wissensentdeckung durch KI als adaptiven Stichprobenprozess und identifiziert Bedingungen für die Akkumulation echten Wissens sowie häufige Fehlermodi wie Kontamination und Vergessen. Es weist auf eine "Kontaminationsfalle" hin, bei der ungültige Artefakte schneller akkumuliert werden können als echte Entdeckungen, selbst bei geringen Fehlerraten, sobald leicht auffindbares Wissen erschöpft ist.

27
RESEARCHarXiv CS.AI·vor 20T

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

Dieses Positionspapier plädiert für die Entwicklung systematischer Methoden zur Generierung synthetischer Sequenzen, sogenannter 'Datensonden', um grundlegend zu verstehen, wie Datenmerkmale die LLM-Leistung in verschiedenen Phasen beeinflussen. Ziel ist es, über derzeitige rechenintensive empirische Ansätze hinauszugehen und einen prinzipientreuen Weg zum Verständnis des Modellverhaltens zu bieten.

27
RESEARCHarXiv CS.LG·vor 14T

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab schlägt ein geschlossenes Kreislaufsystem für die wissenschaftliche Entdeckung vor, das über statische Schlussfolgerungen hinausgeht, indem es die Hypothesengenerierung aktiv mit der Experimentauswahl und Mechanismusverfeinerung koppelt. Es schlägt iterativ plausible Hypothesen vor, wählt informative Experimente zur Unterscheidung oder Verfeinerung aus und aktualisiert seinen Zustand anhand der resultierenden Beweise.

27
RESEARCHarXiv CS.LG·vor 15T

Latent Cache Flow: Model-to-Model Communication Without Text

Latent Cache Flow (LCF) wird als neue Methode für eine effiziente Modell-zu-Modell-Kommunikation vorgestellt, die die Latenz und den Informationsverlust bei textbasierter LLM-Agentenkommunikation adressiert. LCF übersetzt und komprimiert Schlüssel und Werte gemeinsam, wodurch die Adaptergröße erheblich reduziert wird und eine Zusammenfassung neuer Informationen für unterschiedliche Kontexte übertragen wird.

27
RESEARCHarXiv CS.AI·vor 13T

Experiments in Agentic AI for Science

Dieses Papier stellt zwei neuartige Frameworks für die Entwicklung autonomer, agentischer KI in wissenschaftlichen Arbeitsabläufen vor, die eine hybride Local Body, Remote Brain-Architektur mit LLM-Cloud-Backends nutzen. Die Systeme, DeepTS/DeepCollector und DeepScribe, automatisieren die Kuratierung von Zeitreihendatensätzen und die Analyse wissenschaftlicher Präsentationen und zeigen, wie agentische KI Kontext- und Denkprozessbeschränkungen überwinden kann.

27
ARTICLEDEV.to AI·vor 14T

AI for science is becoming a builder workflow, not a lab demo

Die nächste nützliche KI-Verschiebung konzentriert sich darauf, Menschen dabei zu helfen, bessere Untersuchungen durchzuführen, indem sie von der Beantwortung von Fragen zur Unterstützung von Forschungsabläufen übergeht. Dies wird durch Googles Gemini for Science veranschaulicht, das KI-Tools hervorhebt, die auf praktische Forschungsprozesse zugeschnitten sind. Dieses Modell ist nicht nur für Wissenschaftler wertvoll, sondern für jeden, der unübersichtliche Informationen in belastbare Ergebnisse umwandeln muss, indem es schärfere Fragen und das Testen von Annahmen fördert.

27
RESEARCHDEV.to AI·vor 15T

Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2

Forscher von Alibaba und der Nanjing-Universität behaupten eine 9,36-fache Beschleunigung beim Vorfüllen von Millionen von Tokens für die Inferenz von Langkontext-LLMs im Vergleich zu FlashAttention-2. Dieser Durchbruch adressiert den dominierenden Latenz-Engpass bei der Verarbeitung großer Prompts, wo die Aufmerksamkeitsberechnung typischerweise quadratisch skaliert.

27
RESEARCHarXiv CS.CL·5/6/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Diese Forschung untersucht die Verwendung geometrischer Abweichungen von LLM-Hidden-States als Vor-Generierungs-Signal, um anzuzeigen, wann eine Abfrage außerhalb des Wissensbereichs des Modells liegt. Es wurde festgestellt, dass dieses Signal bei unbeantwortbaren mathematischen Prompts gut funktioniert, jedoch nicht bei faktischen Prompts.

27