← heapsort-ai

model collapse

4 items

RESEARCHarXiv CS.CL·13/04/2026

Drift and selection in LLM text ecosystems

Cet article propose un cadre mathématique pour analyser le processus récursif où le texte généré par l'IA remodèle le registre public à partir duquel les LLM apprennent. Il distingue la "dérive", qui élimine les formes rares, et la "sélection", qui filtre le contenu, montrant que la sélection normative préserve des structures linguistiques plus profondes.

29
RESEARCHarXiv CS.CL·il y a 4j

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

L'article propose un cadre SIR/SIRS bicouche pour modéliser la contamination des données synthétiques et l'effondrement des modèles dans l'écosystème de l'IA. Ce modèle phénoménologique de champ moyen traite les corpus de données et les modèles d'IA comme des populations interagissantes, dérivant un nombre de reproduction de base pour analyser la contamination croisée.

28
RESEARCHarXiv CS.CL·01/05/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Cette étude explore l'existence de neurones spécifiques à des tâches dans les grands modèles de langage, notamment pour le raisonnement mathématique et la génération de code. Elle propose une métrique de sélectivité basée sur l'activation pour l'élagage des neurones, surpassant l'élagage aléatoire pour réduire les coûts de calcul et maintenir la précision, tout en prévenant l'effondrement des performances.

27