Data Augmentation

4 items

RESEARCHarXiv CS.CL·5/1/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Diese Forschung schlägt „Selective Augmentation“ vor, einen Bootstrapping-Ansatz zur Verbesserung der universellen automatischen phonetischen Transkription (APT), indem sprachliche Unterscheidungen selektiv übertragen werden, um begrenzte hochwertige Trainingsdaten zu überwinden. Die Methode steigerte die Genauigkeit der Plosiv-Stimmhaftigkeit um 17,6 % und führte die Erkennung von Plosiv-Aspiration ein, indem sie Daten aus einer Hilfssprache wie Hindi nutzte.

machine learning phonetics Data Augmentation Speech Recognition

RESEARCHarXiv CS.LG·5/1/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Diese Forschung schlägt den Einsatz von LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) zur Augmentierung synthetischer Daten im Bereich psychische Gesundheit vor, um Datenknappheit und Datenschutzbestimmungen zu begegnen. Es wird ein umfassendes Bewertungsrahmenwerk eingeführt, das semantische Treue, lexikalische Diversität und Datenschutz/Plagiat bewertet, um Risiken wie Modus-Kollaps oder Memorisation zu mindern.

synthetic data LLMs security Data Augmentation

RESEARCHarXiv CS.LG·vor 12T

IGADA-IoT: IoT Sensor Energy Optimization in Wireless Sensor Networks Driven by Automatic Data Augmentation

Der Artikel schlägt IGADA-IoT vor, ein Framework zur automatischen Datenaugmentation, das durch Informationslücken geleitet wird, um die Energieoptimierung von IoT-Sensoren in drahtlosen Sensornetzwerken zu verbessern. Es nutzt eine hierarchische Multi-Generator-Kollaboration und -Planung, um Einschränkungen bestehender Methoden zu überwinden.

Sensor Networks IoT Energy Optimization Wireless Sensor Networks

RESEARCHarXiv CS.AI·4/23/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Diese Studie untersucht Datenaugmentierungsstrategien zur Verbesserung der auf Transformatoren basierenden Textklassifikation für die automatisierte Bewertung wissenschaftlicher Erklärungen von Schülern, um das Problem der Klassenungleichheit anzugehen. Sie bewertet Methoden wie von GPT-4 generierte Antworten, EASE und ALP im Vergleich zu einer SciBERT-Baseline, basierend auf einem Datensatz von 1.466 High-School-Antworten.

machine learning Natural Language Processing education technology Data Augmentation