← heapsort-ai

model collapse

4 items

RESEARCHarXiv CS.CL·4/13/2026

Drift and selection in LLM text ecosystems

Diese Arbeit stellt einen mathematischen Rahmen zur Analyse des rekursiven Prozesses vor, bei dem KI-generierter Text wieder in die öffentliche Aufzeichnung eingeht und diese formt, aus der LLMs lernen. Es unterscheidet zwischen "Drift", die seltene Formen durch ungefilterte Wiederverwendung entfernt, und "Selektion", die Inhalte nach Kriterien wie Qualität filtert, und zeigt, dass normative Selektion tiefere linguistische Strukturen bewahrt.

29
RESEARCHarXiv CS.CL·vor 4T

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

Das Papier schlägt ein bilayer SIR/SIRS-Framework vor, um die Kontamination synthetischer Daten und den Modellkollaps im KI-Ökosystem zu modellieren. Dieses phänomenologische Mean-Field-Modell behandelt Datenkorpora und KI-Modelle als interagierende Populationen und leitet eine Basisreproduktionszahl ab, um Kreuzkontaminationen zu analysieren.

28
RESEARCHarXiv CS.CL·5/1/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Diese Studie untersucht die Existenz aufgabenspezifischer Neuronen in großen Sprachmodellen, insbesondere für mathematisches Denken und Codegenerierung. Sie führt eine aktivierungsbasierte Selektivitätsmetrik für das Neuronpruning ein, die das zufällige Pruning bei der Reduzierung der Rechenkosten und der Aufrechterhaltung der Aufgabengenauigkeit übertrifft und einen Leistungskollaps verhindert.

27