Data Augmentation

4 items

RESEARCHarXiv CS.CL·01/05/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Esta pesquisa propõe a Aumentação Seletiva, uma abordagem de bootstrapping para melhorar a transcrição fonética automática universal (APT) ao transferir seletivamente distinções linguísticas, abordando a limitação de dados de treinamento de alta qualidade. O método aumentou a precisão do vozeamento de plosivas em 17,6% e introduziu o reconhecimento de aspiração usando dados aumentados de uma língua auxiliar como o hindi.

machine learning phonetics Data Augmentation Speech Recognition

RESEARCHarXiv CS.LG·01/05/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Esta pesquisa propõe o uso de LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) para aumentar dados sintéticos de saúde mental, abordando a escassez e regulamentações de privacidade. Um framework de avaliação abrangente é introduzido, examinando fidelidade semântica, diversidade lexical e privacidade/plágio para mitigar riscos como colapso de modo ou memorização.

synthetic data LLMs security Data Augmentation

RESEARCHarXiv CS.LG·12d atrás

IGADA-IoT: IoT Sensor Energy Optimization in Wireless Sensor Networks Driven by Automatic Data Augmentation

O artigo propõe o IGADA-IoT, uma estrutura de aumento automático de dados guiada por lacunas de informação para otimização de energia de sensores IoT em redes de sensores sem fio. Ele emprega colaboração e agendamento hierárquico de múltiplos geradores para superar as limitações dos métodos existentes.

Sensor Networks IoT Energy Optimization Wireless Sensor Networks

RESEARCHarXiv CS.AI·23/04/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Este estudo investiga estratégias de aumento de dados para melhorar a classificação de texto baseada em transformadores na pontuação automatizada de explicações científicas de alunos, visando o desequilíbrio de classes. Ele avalia métodos como respostas geradas por GPT-4, EASE e ALP contra uma linha de base SciBERT, usando um conjunto de dados de 1.466 respostas de ensino médio.

machine learning Natural Language Processing education technology Data Augmentation