research

78 items

RESEARCHarXiv CS.LG·01/05/2026

When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

Cette étude analyse le rôle de la mémoire externe dans les agents LLM pour l'apprentissage continu, montrant que le dilemme stabilité-plasticité réapparaît au niveau de la mémoire sous des fenêtres de contexte limitées. Un cadre (k,v) est introduit pour dissocier la représentation et l'organisation de l'expérience, révélant que les souvenirs procéduraux abstraits se transfèrent plus fiablement et qu'une organisation de mémoire plus fine est bénéfique.

research memory AI agents Continual Learning

RESEARCHarXiv CS.CL·08/05/2026

The Cost of Context: Mitigating Textual Bias in Multimodal Retrieval-Augmented Generation

Cet article identifie et formalise le

AI models research RAG MLLMs

RESEARCHarXiv CS.LG·08/05/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) introduit un paradigme d'entraînement sans coordinateur pour des équipes de LLM plus petits et plus efficaces, permettant des mises à jour décentralisées et évolutives. Ce cadre théorique garantit une amélioration monotone en isolant la dérive d'occupation avec des régions de confiance KL par agent.

LLMs research AI training Distributed AI

RESEARCHarXiv CS.CL·il y a 21j

Exploring Lightweight Large Language Models for Court View Generation

Cette recherche explore les capacités des Modèles de Langage Larges et Légers (LLM) dans la Génération de Vues Judiciaires Criminelles (CVG) et leur impact sur la prédiction des accusations en IA Juridique. L'étude examine systématiquement les architectures, la taille des LLM et les compare aux Réseaux de Neurones Profonds, introduisant également le cadre CVGEvalKit pour l'évaluation.

Legal AI research Court View Generation Natural Language Processing

RESEARCHarXiv CS.AI·il y a 17j

AOP-Wiki EMOD 3.0: Data Model Expansions and Content Evaluation Framework for Using Agentic AI to Improve Integration between AOPs and New Approach Methodologies (NAMs)

Cet article présente AOP-Wiki EMOD 3.0, axé sur les extensions du modèle de données et un cadre d'évaluation du contenu. Il utilise l'IA agentique pour améliorer l'intégration entre les Voies de Conséquence Néfaste (AOPs) et les Nouvelles Méthodologies d'Approche (NAMs), en abordant les limites actuelles de l'infrastructure de l'AOP-Wiki pour soutenir sa croissance continue.

Data Models research Toxicology New Approach Methodologies

RESEARCHarXiv CS.AI·il y a 29j

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

Les agents basés sur les grands modèles de langage (LLM) ont transformé l'intelligence artificielle, mais la recherche sur les mécanismes de mémoire reste fragmentée. Cette étude propose un nouveau cadre évolutif pour les mécanismes de mémoire des agents LLM, formalisant le processus de développement en trois étapes : Stockage, Réflexion et Expérience.

Evolutionary framework LLM Agents research Memory mechanisms

RESEARCHarXiv CS.AI·il y a 22j

NOVA: Fundamental Limits of Knowledge Discovery Through AI

Le cadre NOVA modélise la découverte de connaissances par l'IA comme un processus d'échantillonnage adaptatif, identifiant les conditions d'accumulation de connaissances authentiques et les modes de défaillance courants tels que la contamination et l'oubli. Il met en évidence un "piège de contamination" où les artefacts invalides peuvent s'accumuler plus rapidement que les découvertes authentiques, même avec de faibles taux de faux positifs, à mesure que les connaissances faciles à trouver sont épuisées.

research machine learning AI Knowledge Discovery

RESEARCHarXiv CS.LG·il y a 27j

Rotation-Preserving Supervised Fine-Tuning

Cet article présente le "Rotation-Preserving Supervised Fine-Tuning" (RPSFT) pour améliorer la généralisation hors domaine dans les grands modèles linguistiques. Il pénalise les changements dans les sous-espaces singuliers pré-entraînés, agissant comme un proxy efficace pour les directions sensibles à Fisher et surpassant les bases SFT standards.

neural networks research machine learning Fine-tuning

RESEARCHarXiv CS.AI·il y a 20j

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

Ce document de position préconise le développement de méthodologies systématiques pour générer des séquences synthétiques, appelées 'sondes de données', afin de comprendre fondamentalement comment les caractéristiques des données affectent les performances des LLM à différentes étapes. L'objectif est de dépasser les approches empiriques actuelles, gourmandes en calcul, en offrant un moyen fondé sur des principes pour appréhender le comportement des modèles.

research machine learning data LLM

RESEARCHarXiv CS.AI·il y a 6j

Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems

Cet article présente GAMBLe, un cadre analytique pour les systèmes de recherche pilotés par l'IA (ADRS). Il décompose le comportement des ADRS en quatre paramètres et un paysage efficace, montrant comment différentes paires générateur-évaluateur induisent des paysages d'optimisation structurellement différents.

LLMs research frameworks AI

RESEARCHarXiv CS.LG·il y a 14j

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propose un cadre en boucle fermée pour la découverte scientifique, allant au-delà de l'inférence statique en couplant activement la génération d'hypothèses avec la sélection d'expériences et le raffinement des mécanismes. Il suggère itérativement des hypothèses, choisit des expériences informatives pour les distinguer ou les affiner, et met à jour son état en utilisant les preuves résultantes.

LLMs research active experimentation Scientific Discovery

RESEARCHarXiv CS.LG·il y a 15j

Latent Cache Flow: Model-to-Model Communication Without Text

Latent Cache Flow (LCF) est présenté comme une nouvelle méthode pour une communication efficace de modèle à modèle, résolvant la latence et la perte d'informations de la communication textuelle des agents LLM. LCF traduit et compresse conjointement les clés et les valeurs, réduisant considérablement la taille de l'adaptateur et transmettant un résumé des nouvelles informations pour des contextes différents.

research machine learning AI Communication

RESEARCHarXiv CS.AI·il y a 13j

Experiments in Agentic AI for Science

Cet article présente deux nouveaux cadres pour développer une IA autonome et agentique dans les flux de travail scientifiques, en utilisant une architecture hybride Local Body, Remote Brain avec des backends LLM cloud. Les systèmes, DeepTS/DeepCollector et DeepScribe, automatisent la curation des ensembles de données de séries temporelles et l'analyse des présentations scientifiques, démontrant comment l'IA agentique peut surmonter les limitations de contexte et de raisonnement.

Scientific AI research LLM applications autonomous agents

DOCDEV.to AI·il y a 27j

Automate Your Literature Review: A Practical AI Pipeline for Researchers

Ce contenu présente un pipeline d'IA pratique pour les chercheurs afin d'automatiser les revues de littérature systématiques, en soulignant la création d'un "gold set" pour une formation et des tests d'IA robustes. Il suggère également l'utilisation d'outils comme PythonTutor pour déboguer les fonctions d'extraction de données.

research learning literature review AI tools

ARTICLEDEV.to AI·il y a 13j

AI for science is becoming a builder workflow, not a lab demo

Le prochain changement utile de l'IA vise à aider les gens à mener de meilleures investigations, passant de la simple réponse à des questions à l'aide aux flux de travail de recherche. Ceci est illustré par Gemini for Science de Google, qui met en évidence des outils d'IA construits autour de processus de recherche pratiques. Ce modèle est précieux non seulement pour les scientifiques, mais pour quiconque doit transformer des informations désordonnées en résultats défendables, encourageant des questions plus précises et la vérification des hypothèses.

Workflows research Gemini for Science science

RESEARCHDEV.to AI·il y a 15j

Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2

Des chercheurs d'Alibaba et de l'Université de Nanjing revendiquent une accélération de 9,36X pour le préremplissage d'un million de tokens dans l'inférence des LLM à long contexte, surpassant FlashAttention-2. Cette avancée s'attaque au goulot d'étranglement dominant en matière de latence dans le traitement des invites volumineuses, où le calcul de l'attention s'adapte quadratiquement.

FlashAttention research AI performance

DOCDEV.to AI·25/04/2026

Automating Literature Reviews: An AI-Powered Guide for Niche Researchers

Ce contenu aborde l'automatisation des revues de littérature pour les chercheurs, s'attaquant au goulot d'étranglement du criblage manuel des PDF. Il propose une boucle de raffinage itérative et introduit la bibliothèque open-source GROBID pour extraire des données structurées des documents académiques.

GROBID research literature review AI application

ARTICLEOpenAI Blog·il y a 29j

What Parameter Golf taught us about AI-assisted research

Parameter Golf a réuni plus de 1 000 participants et 2 000 soumissions pour explorer la recherche en apprentissage automatique assistée par l'IA. L'événement s'est concentré sur les agents de codage, la quantification et la conception de nouveaux modèles sous des contraintes strictes.

research machine learning quantization AI

RESEARCHarXiv CS.CL·06/04/2026

Speaking of Language: Reflections on Metalanguage Research in NLP

Este trabalho define metalinguagem e explora sua conexão com PNL e LLMs, discutindo esforços de pesquisa e dimensões de tarefas metalinguísticas. Propõe ainda uma lista de futuras direções de pesquisa pouco estudadas.

LLMs research Metalanguage NLP

RESEARCHarXiv CS.CL·06/05/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Cette recherche étudie l'utilisation de la déviation géométrique des états cachés des LLM comme signal de pré-génération pour indiquer quand une requête dépasse les connaissances du modèle. Il a été constaté que ce signal fonctionne bien pour les requêtes mathématiques non répondables, mais pas pour les requêtes factuelles.

LLMs research Model Evaluation Reliability