research

78 items

RESEARCHarXiv CS.LG·5/1/2026

When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

Diese Studie untersucht die Rolle des externen Speichers in LLM-Agenten für kontinuierliches Lernen und zeigt, dass das Stabilitäts-Plastizitäts-Dilemma bei begrenzten Kontextfenstern auf die Speicherebene verlagert wird. Ein (k,v)-Framework wird eingeführt, um die Darstellung und Organisation von Erfahrungen zu entflechten, wobei festgestellt wird, dass abstrakte prozedurale Erinnerungen zuverlässiger übertragen werden und eine feinere Speicherorganisation vorteilhaft ist.

research memory AI agents Continual Learning

RESEARCHarXiv CS.CL·5/8/2026

The Cost of Context: Mitigating Textual Bias in Multimodal Retrieval-Augmented Generation

Dieses Papier identifiziert und formalisiert das

AI models research RAG MLLMs

RESEARCHarXiv CS.LG·5/8/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) führt ein koordinatorfreies Trainingsparadigma für Teams kleinerer, effizienterer LLMs ein, das skalierbare, dezentrale Updates ermöglicht. Dieser theoretische Rahmen gewährleistet eine monotone Verbesserung, indem er die Besetzungsdrift mit agentenbezogenen KL-Vertrauensregionen isoliert.

LLMs research AI training Distributed AI

RESEARCHarXiv CS.CL·vor 21T

Exploring Lightweight Large Language Models for Court View Generation

Die Forschung untersucht die Fähigkeiten leichter Large Language Models (LLMs) bei der Generierung von Gerichtsansichten (CVG) und deren Einfluss auf die Anklagevorhersage in der Rechts-KI. Sie untersucht systematisch Architekturen, LLM-Größen und vergleicht sie mit Deep Neural Networks, wobei sie auch das CVGEvalKit-Framework einführt.

Legal AI research Court View Generation Natural Language Processing

RESEARCHarXiv CS.AI·vor 17T

AOP-Wiki EMOD 3.0: Data Model Expansions and Content Evaluation Framework for Using Agentic AI to Improve Integration between AOPs and New Approach Methodologies (NAMs)

Dieser Artikel stellt AOP-Wiki EMOD 3.0 vor, der sich auf die Erweiterung des Datenmodells und ein Rahmenwerk zur Inhaltsbewertung konzentriert. Er nutzt agentische KI, um die Integration zwischen Adverse Outcome Pathways (AOPs) und New Approach Methodologies (NAMs) zu verbessern und aktuelle Einschränkungen in der AOP-Wiki-Infrastruktur für weiteres Wachstum zu beheben.

Data Models research Toxicology New Approach Methodologies

RESEARCHarXiv CS.AI·vor 29T

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

LLM-basierte Agenten haben die künstliche Intelligenz neu gestaltet, doch die Forschung zu Speichermechanismen bleibt fragmentiert. Diese Umfrage schlägt einen neuartigen evolutionären Rahmen für LLM-Agenten-Speichermechanismen vor, der den Entwicklungsprozess in drei Stufen formalisiert: Speicherung, Reflexion und Erfahrung.

Evolutionary framework LLM Agents research Memory mechanisms

RESEARCHarXiv CS.AI·vor 22T

NOVA: Fundamental Limits of Knowledge Discovery Through AI

Das NOVA-Framework modelliert die Wissensentdeckung durch KI als adaptiven Stichprobenprozess und identifiziert Bedingungen für die Akkumulation echten Wissens sowie häufige Fehlermodi wie Kontamination und Vergessen. Es weist auf eine "Kontaminationsfalle" hin, bei der ungültige Artefakte schneller akkumuliert werden können als echte Entdeckungen, selbst bei geringen Fehlerraten, sobald leicht auffindbares Wissen erschöpft ist.

research machine learning AI Knowledge Discovery

RESEARCHarXiv CS.LG·vor 27T

Rotation-Preserving Supervised Fine-Tuning

Diese Arbeit führt "Rotation-Preserving Supervised Fine-Tuning" (RPSFT) ein, um die Out-of-Domain-Generalisierung bei großen Sprachmodellen zu verbessern. Es bestraft Änderungen in vorab trainierten singulären Unterräumen und dient als effizienter Proxy für Fisher-sensitive Richtungen, wobei es Standard-SFT-Baselines übertrifft.

neural networks research machine learning Fine-tuning

RESEARCHarXiv CS.AI·vor 20T

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

Dieses Positionspapier plädiert für die Entwicklung systematischer Methoden zur Generierung synthetischer Sequenzen, sogenannter 'Datensonden', um grundlegend zu verstehen, wie Datenmerkmale die LLM-Leistung in verschiedenen Phasen beeinflussen. Ziel ist es, über derzeitige rechenintensive empirische Ansätze hinauszugehen und einen prinzipientreuen Weg zum Verständnis des Modellverhaltens zu bieten.

research machine learning data LLM

RESEARCHarXiv CS.AI·vor 6T

Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems

Dieses Papier stellt GAMBLe vor, ein analytisches Framework für KI-gesteuerte Forschungssysteme (ADRS). Es zerlegt das ADRS-Verhalten in vier Parameter und eine effektive Landschaft, die zeigt, wie verschiedene Generator-Assessor-Paare strukturell unterschiedliche Optimierungslandschaften erzeugen.

LLMs research frameworks AI

RESEARCHarXiv CS.LG·vor 14T

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab schlägt ein geschlossenes Kreislaufsystem für die wissenschaftliche Entdeckung vor, das über statische Schlussfolgerungen hinausgeht, indem es die Hypothesengenerierung aktiv mit der Experimentauswahl und Mechanismusverfeinerung koppelt. Es schlägt iterativ plausible Hypothesen vor, wählt informative Experimente zur Unterscheidung oder Verfeinerung aus und aktualisiert seinen Zustand anhand der resultierenden Beweise.

LLMs research active experimentation Scientific Discovery

RESEARCHarXiv CS.LG·vor 15T

Latent Cache Flow: Model-to-Model Communication Without Text

Latent Cache Flow (LCF) wird als neue Methode für eine effiziente Modell-zu-Modell-Kommunikation vorgestellt, die die Latenz und den Informationsverlust bei textbasierter LLM-Agentenkommunikation adressiert. LCF übersetzt und komprimiert Schlüssel und Werte gemeinsam, wodurch die Adaptergröße erheblich reduziert wird und eine Zusammenfassung neuer Informationen für unterschiedliche Kontexte übertragen wird.

research machine learning AI Communication

RESEARCHarXiv CS.AI·vor 13T

Experiments in Agentic AI for Science

Dieses Papier stellt zwei neuartige Frameworks für die Entwicklung autonomer, agentischer KI in wissenschaftlichen Arbeitsabläufen vor, die eine hybride Local Body, Remote Brain-Architektur mit LLM-Cloud-Backends nutzen. Die Systeme, DeepTS/DeepCollector und DeepScribe, automatisieren die Kuratierung von Zeitreihendatensätzen und die Analyse wissenschaftlicher Präsentationen und zeigen, wie agentische KI Kontext- und Denkprozessbeschränkungen überwinden kann.

Scientific AI research LLM applications autonomous agents

DOCDEV.to AI·vor 28T

Automate Your Literature Review: A Practical AI Pipeline for Researchers

Dieser Inhalt stellt eine praktische KI-Pipeline für Forscher vor, um systematische Literaturrecherchen zu automatisieren, wobei die Erstellung eines "Gold-Sets" für robustes KI-Training und -Tests hervorgehoben wird. Es wird auch die Verwendung von Tools wie PythonTutor zum Debuggen von Datenextraktionsfunktionen vorgeschlagen.

research learning literature review AI tools

ARTICLEDEV.to AI·vor 14T

AI for science is becoming a builder workflow, not a lab demo

Die nächste nützliche KI-Verschiebung konzentriert sich darauf, Menschen dabei zu helfen, bessere Untersuchungen durchzuführen, indem sie von der Beantwortung von Fragen zur Unterstützung von Forschungsabläufen übergeht. Dies wird durch Googles Gemini for Science veranschaulicht, das KI-Tools hervorhebt, die auf praktische Forschungsprozesse zugeschnitten sind. Dieses Modell ist nicht nur für Wissenschaftler wertvoll, sondern für jeden, der unübersichtliche Informationen in belastbare Ergebnisse umwandeln muss, indem es schärfere Fragen und das Testen von Annahmen fördert.

Workflows research Gemini for Science science

RESEARCHDEV.to AI·vor 15T

Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2

Forscher von Alibaba und der Nanjing-Universität behaupten eine 9,36-fache Beschleunigung beim Vorfüllen von Millionen von Tokens für die Inferenz von Langkontext-LLMs im Vergleich zu FlashAttention-2. Dieser Durchbruch adressiert den dominierenden Latenz-Engpass bei der Verarbeitung großer Prompts, wo die Aufmerksamkeitsberechnung typischerweise quadratisch skaliert.

FlashAttention research AI performance

DOCDEV.to AI·4/25/2026

Automating Literature Reviews: An AI-Powered Guide for Niche Researchers

Dieser Inhalt konzentriert sich auf die Automatisierung von Literaturrecherchen für Forscher, um den Engpass der manuellen PDF-Screening zu überwinden. Er schlägt eine iterative Verfeinerungsschleife vor und stellt die Open-Source-Bibliothek GROBID zur Extraktion strukturierter Daten aus akademischen Dokumenten vor.

GROBID research literature review AI application

ARTICLEOpenAI Blog·vor 29T

What Parameter Golf taught us about AI-assisted research

Parameter Golf brachte über 1.000 Teilnehmer und 2.000 Einreichungen zusammen, um KI-gestützte Machine-Learning-Forschung zu erkunden. Die Veranstaltung konzentrierte sich auf Codierungsagenten, Quantisierung und neuartige Modellentwicklung unter strengen Auflagen.

research machine learning quantization AI

RESEARCHarXiv CS.CL·4/6/2026

Speaking of Language: Reflections on Metalanguage Research in NLP

Este trabalho define metalinguagem e explora sua conexão com PNL e LLMs, discutindo esforços de pesquisa e dimensões de tarefas metalinguísticas. Propõe ainda uma lista de futuras direções de pesquisa pouco estudadas.

LLMs research Metalanguage NLP

RESEARCHarXiv CS.CL·5/6/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Diese Forschung untersucht die Verwendung geometrischer Abweichungen von LLM-Hidden-States als Vor-Generierungs-Signal, um anzuzeigen, wann eine Abfrage außerhalb des Wissensbereichs des Modells liegt. Es wurde festgestellt, dass dieses Signal bei unbeantwortbaren mathematischen Prompts gut funktioniert, jedoch nicht bei faktischen Prompts.

LLMs research Model Evaluation Reliability