← heapsort-ai

Data Augmentation

4 items

RESEARCHarXiv CS.CL·01/05/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Cette recherche propose l'Augmentation Sélective, une approche de bootstrapping pour améliorer la transcription phonétique automatique universelle (APT) en transférant sélectivement des distinctions linguistiques, palliant ainsi le manque de données d'entraînement de haute qualité. La méthode a augmenté la précision du voisement des occlusives de 17,6% et introduit la reconnaissance de l'aspiration en utilisant des données augmentées d'une langue d'appoint comme l'hindi.

28
RESEARCHarXiv CS.LG·01/05/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Cette recherche propose l'utilisation de LLM (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) pour l'augmentation de données synthétiques en santé mentale, répondant à la pénurie et aux réglementations de confidentialité. Un cadre d'évaluation complet est introduit, évaluant la fidélité sémantique, la diversité lexicale et la confidentialité/plagiat pour atténuer les risques comme l'effondrement de mode ou la mémorisation.

27
RESEARCHarXiv CS.LG·il y a 12j

IGADA-IoT: IoT Sensor Energy Optimization in Wireless Sensor Networks Driven by Automatic Data Augmentation

L'article propose IGADA-IoT, un cadre d'augmentation automatique de données guidé par les lacunes d'information pour l'optimisation énergétique des capteurs IoT dans les réseaux de capteurs sans fil. Il utilise une collaboration et une planification hiérarchiques multi-générateurs pour pallier les insuffisances des méthodes actuelles.

27
RESEARCHarXiv CS.AI·23/04/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Cette étude explore des stratégies d'augmentation de données pour améliorer la classification de texte basée sur des transformeurs dans l'évaluation automatique d'explications scientifiques d'élèves, s'attaquant au déséquilibre des classes. Elle évalue des méthodes telles que les réponses générées par GPT-4, EASE et ALP par rapport à une base de référence SciBERT, utilisant un ensemble de données de 1 466 réponses de lycéens.

27