← heapsort-ai

Continual Learning

20 items

RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Learning, Fast and Slow: Towards LLMs That Adapt Continually [R]

Les grands modèles linguistiques (LLM) sont confrontés à l'oubli catastrophique et à la perte de plasticité lors de la mise à jour de leurs paramètres pour des tâches spécifiques. Ce travail introduit un cadre d'apprentissage "rapide-lent" pour les LLM, utilisant les paramètres du modèle comme poids lents et le contexte optimisé comme poids rapides pour s'adapter efficacement sans compromettre le raisonnement général.

42
RESEARCHarXiv CS.AI·17/04/2026

Mistake gating leads to energy and memory efficient continual learning

Cette recherche propose l'« apprentissage à porte d'erreur mémorisée », une règle de plasticité biologiquement plausible qui ne met à jour les synapses qu'en cas d'erreurs de classification. Cette méthode réduit le nombre de mises à jour du réseau de 50% à 80%, améliorant l'efficacité énergétique et de la mémoire dans les scénarios d'apprentissage continu et en ligne.

35
RESEARCHarXiv CS.LG·16/04/2026

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Cette recherche introduit la Cristallisation Adaptative de la Mémoire (AMC), une nouvelle architecture de mémoire pour permettre aux agents d'IA autonomes de consolider progressivement leurs expériences sans oublier les connaissances antérieures. L'AMC modélise la mémoire comme un processus continu de cristallisation sur une hiérarchie en trois phases, inspirée par la théorie du marquage et de la capture synaptique.

29
RESEARCHarXiv CS.AI·14/04/2026

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers

AHC est un cadre de méta-apprentissage pour la détection continue d'objets sur microcontrôleurs à mémoire limitée, s'adaptant aux distributions de tâches évolutives. Il utilise une compression adaptative basée sur MAML, une compression hiérarchique multi-échelle et une architecture à double mémoire pour prévenir l'oubli catastrophique avec un budget de 100KB.

28
RESEARCHarXiv CS.LG·il y a 5j

Position: Deployed Reinforcement Learning should be Continual

Cet article de position soutient que les agents d'apprentissage par renforcement (RL) déployés devraient s'engager dans un apprentissage continu plutôt que dans un paradigme d'entraînement puis de correction. Il identifie quatre sources de non-stationnarité après le déploiement, soulignant la nécessité pour les agents de s'adapter continuellement pour atteindre des performances optimales dans des scénarios du monde réel.

28
RESEARCHarXiv CS.CL·20/04/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Les grands modèles de langage sont souvent sujets aux hallucinations factuelles, un problème aggravé par le réglage fin supervisé (SFT) qui dégrade les connaissances pré-entraînées. Cette recherche propose une méthode SFT basée sur l'auto-distillation, inspirée de l'apprentissage continu, pour atténuer les hallucinations en régularisant la dérive de la distribution de sortie, tout en acquérant efficacement de nouvelles informations factuelles.

27
ARTICLEDEV.to AI·il y a 27j

DeepMind’s CEO Says AGI May Be ~4 Years Away. The Last Three Missing Pieces Are Not What Most People Think.

Demis Hassabis, PDG de Google DeepMind, prédit que l'AGI pourrait arriver vers 2030, identifiant trois pièces manquantes critiques dans l'IA actuelle : l'apprentissage continu, le raisonnement à long terme et la mémoire réelle. Il décrit les modèles actuels comme présentant une "intelligence inégale", avec de fortes réussites et des échecs fragiles.

27
ARTICLEDEV.to AI·il y a 24j

Meta-Optimized Continual Adaptation for heritage language revitalization programs under multi-jurisdictional compliance

L'auteur a réalisé le besoin critique de l'IA dans la préservation des langues en voie de disparition, rencontrant des défis tels que l'oubli catastrophique dans les systèmes de traduction neuronale et les lois complexes de souveraineté des données multijuridictionnelles. Le travail se concentre sur l'adaptation continue méta-optimisée pour les programmes de revitalisation des langues patrimoniales.

27
RESEARCHDEV.to AI·21/04/2026

Continual Learning via Neural Pruning

Ce contenu explore probablement le concept d'apprentissage continu, un défi majeur en IA, en exploitant les techniques d'élagage neuronal. Il vise à démontrer comment l'élagage peut permettre aux modèles d'acquérir séquentiellement de nouvelles connaissances sans oublier les informations apprises précédemment.

27
RESEARCHarXiv CS.LG·01/05/2026

When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

Cette étude analyse le rôle de la mémoire externe dans les agents LLM pour l'apprentissage continu, montrant que le dilemme stabilité-plasticité réapparaît au niveau de la mémoire sous des fenêtres de contexte limitées. Un cadre (k,v) est introduit pour dissocier la représentation et l'organisation de l'expérience, révélant que les souvenirs procéduraux abstraits se transfèrent plus fiablement et qu'une organisation de mémoire plus fine est bénéfique.

27
RESEARCHarXiv CS.LG·07/05/2026

Continual Distillation of Teachers from Different Domains

Cette recherche introduit la Distillation Continue (CD), un nouveau paradigme où un modèle étudiant apprend séquentiellement d'un flux de modèles enseignants sans retenir l'accès aux précédents. Elle aborde les défis tels que le transfert (UKT) et l'oubli (UKF) des connaissances invisibles grâce à la Distillation de Données Externes Auto-Supervisées (SE2D), qui utilise des données externes non étiquetées pour stabiliser l'apprentissage à travers des enseignants hétérogènes.

27
RESEARCHarXiv CS.AI·il y a 29j

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Cet article formalise l'Apprentissage en Temps de Déploiement (DTL) comme une nouvelle étape pour les LLM, leur permettant de s'adapter continuellement à partir de l'expérience post-entraînement sans modifier les paramètres du modèle. Il introduit CASCADE, un cadre qui dote les agents LLM d'une mémoire épisodique explicite et évolutive, formalisant la réutilisation d'expérience comme un problème de bandit contextuel.

27
RESEARCHarXiv CS.LG·il y a 12j

Architecture-driven Shift: towards a lightweight selector for capturing the trends of logit shift

Cet article propose un nouveau sélecteur léger pour capturer les tendances de 'logit shift' en Apprentissage Continu (CL), un défi coûteux en calcul dans la sélection de modèles pré-entraînés. La recherche aborde l'hétérogénéité architecturale des réseaux neuronaux, en découplant la dépendance de l'architecture et des données pour établir un nouveau cadre théorique.

27
RESEARCHarXiv CS.CL·06/04/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

27
ARTICLELangChain Blog·05/04/2026

Continual learning for AI agents

Ce contenu traite de l'apprentissage continu pour les agents d'IA, suggérant que l'apprentissage s'étend au-delà de la simple mise à jour des poids du modèle. Il introduit trois couches distinctes où l'apprentissage peut se produire – le modèle, le harnais et le contexte – soulignant comment cette perspective modifie l'approche de construction de systèmes d'IA qui s'améliorent avec le temps.

Continual learning for AI agents
26