← heapsort-ai

Data Augmentation

4 items

RESEARCHarXiv CS.CL·1/5/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Esta investigación propone la Aumentación Selectiva, un enfoque de bootstrapping para mejorar la transcripción fonética automática universal (APT) transfiriendo selectivamente distinciones lingüísticas para abordar la limitación de datos de entrenamiento de alta calidad. El método aumentó la precisión del sonorización de oclusivas en un 17,6% e introdujo el reconocimiento de la aspiración, utilizando datos aumentados de un idioma auxiliar como el hindi.

28
RESEARCHarXiv CS.LG·1/5/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Esta investigación propone el uso de LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) para la aumentación de datos sintéticos de salud mental, abordando la escasez y las regulaciones de privacidad. Se introduce un marco de evaluación integral que examina la fidelidad semántica, la diversidad léxica y la privacidad/plagio para mitigar riesgos como el colapso de modo o la memorización.

27
RESEARCHarXiv CS.LG·hace 13d

IGADA-IoT: IoT Sensor Energy Optimization in Wireless Sensor Networks Driven by Automatic Data Augmentation

El artículo propone IGADA-IoT, un marco de aumento automático de datos guiado por brechas de información para la optimización energética de sensores IoT en redes de sensores inalámbricas. Utiliza colaboración y programación jerárquica de múltiples generadores para abordar las limitaciones de los métodos existentes.

27
RESEARCHarXiv CS.AI·23/4/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Este estudio investiga estrategias de aumento de datos para mejorar la clasificación de texto basada en transformadores en la puntuación automatizada de explicaciones científicas de estudiantes, abordando el desequilibrio de clases. Evalúa métodos como respuestas generadas por GPT-4, EASE y ALP contra una línea base de SciBERT, utilizando un conjunto de datos de 1.466 respuestas de secundaria.

27