← heapsort-ai

research

78 items

RESEARCHarXiv CS.LG·01/05/2026

When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

Cette étude analyse le rôle de la mémoire externe dans les agents LLM pour l'apprentissage continu, montrant que le dilemme stabilité-plasticité réapparaît au niveau de la mémoire sous des fenêtres de contexte limitées. Un cadre (k,v) est introduit pour dissocier la représentation et l'organisation de l'expérience, révélant que les souvenirs procéduraux abstraits se transfèrent plus fiablement et qu'une organisation de mémoire plus fine est bénéfique.

27
RESEARCHarXiv CS.LG·08/05/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) introduit un paradigme d'entraînement sans coordinateur pour des équipes de LLM plus petits et plus efficaces, permettant des mises à jour décentralisées et évolutives. Ce cadre théorique garantit une amélioration monotone en isolant la dérive d'occupation avec des régions de confiance KL par agent.

27
RESEARCHarXiv CS.CL·il y a 21j

Exploring Lightweight Large Language Models for Court View Generation

Cette recherche explore les capacités des Modèles de Langage Larges et Légers (LLM) dans la Génération de Vues Judiciaires Criminelles (CVG) et leur impact sur la prédiction des accusations en IA Juridique. L'étude examine systématiquement les architectures, la taille des LLM et les compare aux Réseaux de Neurones Profonds, introduisant également le cadre CVGEvalKit pour l'évaluation.

27
RESEARCHarXiv CS.AI·il y a 17j

AOP-Wiki EMOD 3.0: Data Model Expansions and Content Evaluation Framework for Using Agentic AI to Improve Integration between AOPs and New Approach Methodologies (NAMs)

Cet article présente AOP-Wiki EMOD 3.0, axé sur les extensions du modèle de données et un cadre d'évaluation du contenu. Il utilise l'IA agentique pour améliorer l'intégration entre les Voies de Conséquence Néfaste (AOPs) et les Nouvelles Méthodologies d'Approche (NAMs), en abordant les limites actuelles de l'infrastructure de l'AOP-Wiki pour soutenir sa croissance continue.

27
RESEARCHarXiv CS.AI·il y a 29j

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

Les agents basés sur les grands modèles de langage (LLM) ont transformé l'intelligence artificielle, mais la recherche sur les mécanismes de mémoire reste fragmentée. Cette étude propose un nouveau cadre évolutif pour les mécanismes de mémoire des agents LLM, formalisant le processus de développement en trois étapes : Stockage, Réflexion et Expérience.

27
RESEARCHarXiv CS.AI·il y a 22j

NOVA: Fundamental Limits of Knowledge Discovery Through AI

Le cadre NOVA modélise la découverte de connaissances par l'IA comme un processus d'échantillonnage adaptatif, identifiant les conditions d'accumulation de connaissances authentiques et les modes de défaillance courants tels que la contamination et l'oubli. Il met en évidence un "piège de contamination" où les artefacts invalides peuvent s'accumuler plus rapidement que les découvertes authentiques, même avec de faibles taux de faux positifs, à mesure que les connaissances faciles à trouver sont épuisées.

27
RESEARCHarXiv CS.LG·il y a 27j

Rotation-Preserving Supervised Fine-Tuning

Cet article présente le "Rotation-Preserving Supervised Fine-Tuning" (RPSFT) pour améliorer la généralisation hors domaine dans les grands modèles linguistiques. Il pénalise les changements dans les sous-espaces singuliers pré-entraînés, agissant comme un proxy efficace pour les directions sensibles à Fisher et surpassant les bases SFT standards.

27
RESEARCHarXiv CS.AI·il y a 20j

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

Ce document de position préconise le développement de méthodologies systématiques pour générer des séquences synthétiques, appelées 'sondes de données', afin de comprendre fondamentalement comment les caractéristiques des données affectent les performances des LLM à différentes étapes. L'objectif est de dépasser les approches empiriques actuelles, gourmandes en calcul, en offrant un moyen fondé sur des principes pour appréhender le comportement des modèles.

27
RESEARCHarXiv CS.LG·il y a 14j

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propose un cadre en boucle fermée pour la découverte scientifique, allant au-delà de l'inférence statique en couplant activement la génération d'hypothèses avec la sélection d'expériences et le raffinement des mécanismes. Il suggère itérativement des hypothèses, choisit des expériences informatives pour les distinguer ou les affiner, et met à jour son état en utilisant les preuves résultantes.

27
RESEARCHarXiv CS.LG·il y a 15j

Latent Cache Flow: Model-to-Model Communication Without Text

Latent Cache Flow (LCF) est présenté comme une nouvelle méthode pour une communication efficace de modèle à modèle, résolvant la latence et la perte d'informations de la communication textuelle des agents LLM. LCF traduit et compresse conjointement les clés et les valeurs, réduisant considérablement la taille de l'adaptateur et transmettant un résumé des nouvelles informations pour des contextes différents.

27
RESEARCHarXiv CS.AI·il y a 13j

Experiments in Agentic AI for Science

Cet article présente deux nouveaux cadres pour développer une IA autonome et agentique dans les flux de travail scientifiques, en utilisant une architecture hybride Local Body, Remote Brain avec des backends LLM cloud. Les systèmes, DeepTS/DeepCollector et DeepScribe, automatisent la curation des ensembles de données de séries temporelles et l'analyse des présentations scientifiques, démontrant comment l'IA agentique peut surmonter les limitations de contexte et de raisonnement.

27
ARTICLEDEV.to AI·il y a 13j

AI for science is becoming a builder workflow, not a lab demo

Le prochain changement utile de l'IA vise à aider les gens à mener de meilleures investigations, passant de la simple réponse à des questions à l'aide aux flux de travail de recherche. Ceci est illustré par Gemini for Science de Google, qui met en évidence des outils d'IA construits autour de processus de recherche pratiques. Ce modèle est précieux non seulement pour les scientifiques, mais pour quiconque doit transformer des informations désordonnées en résultats défendables, encourageant des questions plus précises et la vérification des hypothèses.

27
RESEARCHDEV.to AI·il y a 15j

Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2

Des chercheurs d'Alibaba et de l'Université de Nanjing revendiquent une accélération de 9,36X pour le préremplissage d'un million de tokens dans l'inférence des LLM à long contexte, surpassant FlashAttention-2. Cette avancée s'attaque au goulot d'étranglement dominant en matière de latence dans le traitement des invites volumineuses, où le calcul de l'attention s'adapte quadratiquement.

27
RESEARCHarXiv CS.CL·06/05/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Cette recherche étudie l'utilisation de la déviation géométrique des états cachés des LLM comme signal de pré-génération pour indiquer quand une requête dépasse les connaissances du modèle. Il a été constaté que ce signal fonctionne bien pour les requêtes mathématiques non répondables, mais pas pour les requêtes factuelles.

27