model collapse

4 items

RESEARCHarXiv CS.CL·4/13/2026

Drift and selection in LLM text ecosystems

Diese Arbeit stellt einen mathematischen Rahmen zur Analyse des rekursiven Prozesses vor, bei dem KI-generierter Text wieder in die öffentliche Aufzeichnung eingeht und diese formt, aus der LLMs lernen. Es unterscheidet zwischen "Drift", die seltene Formen durch ungefilterte Wiederverwendung entfernt, und "Selektion", die Inhalte nach Kriterien wie Qualität filtert, und zeigt, dass normative Selektion tiefere linguistische Strukturen bewahrt.

Text Ecosystems data drift model collapse large language models

RESEARCHarXiv CS.CL·vor 4T

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

Das Papier schlägt ein bilayer SIR/SIRS-Framework vor, um die Kontamination synthetischer Daten und den Modellkollaps im KI-Ökosystem zu modellieren. Dieses phänomenologische Mean-Field-Modell behandelt Datenkorpora und KI-Modelle als interagierende Populationen und leitet eine Basisreproduktionszahl ab, um Kreuzkontaminationen zu analysieren.

synthetic data AI models data contamination model collapse

RESEARCHarXiv CS.CL·5/1/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Diese Studie untersucht die Existenz aufgabenspezifischer Neuronen in großen Sprachmodellen, insbesondere für mathematisches Denken und Codegenerierung. Sie führt eine aktivierungsbasierte Selektivitätsmetrik für das Neuronpruning ein, die das zufällige Pruning bei der Reduzierung der Rechenkosten und der Aufrechterhaltung der Aufgabengenauigkeit übertrifft und einen Leistungskollaps verhindert.

Pruning AI optimization model collapse large language models

RESEARCHQwen Blog·7/27/2025

GSPO: Towards Scalable Reinforcement Learning for Language Models

O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).

Scalability Policy optimization language models reinforcement learning