deep learning

263 items

RESEARCHarXiv CS.LG·8/5/2026

Adaptive Computation Depth via Learned Token Routing in Transformers

Este artículo presenta Token-Selective Attention (TSA), un mecanismo para arquitecturas Transformer que permite una profundidad de computación adaptativa por token. TSA aprende a enrutar tokens basándose en la dificultad contextual, ahorrando un 14-23% de las operaciones de capa de token con una pérdida mínima de calidad.

neural networks deep learning machine learning efficiency

RESEARCHarXiv CS.LG·21/4/2026

Preventing overfitting in deep learning using differential privacy

Esta investigación explora un enfoque basado en privacidad diferencial para mejorar la generalización y prevenir el sobreajuste en Redes Neuronales Profundas. El sobreajuste, donde los modelos aprenden el ruido y rinden mal en datos no vistos, es un desafío creciente en los sistemas de IA modernos.

Differential Privacy Generalization privacy deep learning

RESEARCHarXiv CS.CL·21/4/2026

Brain-CLIPLM: Decoding Compressed Semantic Representations in EEG for Language Reconstruction

Este trabajo propone una hipótesis de compresión semántica para superar las limitaciones en la decodificación de lenguaje a partir de EEG, sugiriendo que las señales EEG codifican anclajes semánticos comprimidos en lugar de la estructura lingüística completa. Presenta Brain-CLIPLM, un marco de dos etapas para la extracción de anclajes semánticos mediante aprendizaje contrastivo y la reconstrucción de oraciones utilizando un modelo de lenguaje grande basado en recuperación.

Brain-Computer Interface (BCI)deep learning machine learning Natural Language Processing (NLP)

RESEARCHarXiv CS.LG·4/5/2026

Cloud Is Closer Than It Appears: Revisiting the Tradeoffs of Distributed Real-Time Inference

Este artículo revisita la viabilidad de la inferencia basada en la nube para sistemas ciberfísicos sensibles a la latencia, desafiando la suposición de que el procesamiento en el dispositivo es siempre superior. Demuestra que las plataformas en la nube de alto rendimiento pueden igualar o superar el rendimiento en el dispositivo para tareas de control en tiempo real, amortizando los retrasos de la red y las colas.

deep learning cloud computing distributed systems edge computing

RESEARCHarXiv CS.LG·7/5/2026

Continual Distillation of Teachers from Different Domains

Esta investigación introduce la Destilación Continua (CD), un nuevo paradigma donde un modelo estudiante aprende secuencialmente de un flujo de modelos maestros sin retener acceso a los anteriores. Aborda desafíos como la transferencia (UKT) y el olvido (UKF) de conocimiento no visto a través de la Destilación de Datos Externos Propios (SE2D), que utiliza datos externos sin etiquetar para estabilizar el aprendizaje entre maestros heterogéneos.

Knowledge Distillation deep learning learning Continual Learning

RESEARCHarXiv CS.LG·21/4/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Este artículo presenta BASIS, un algoritmo eficiente de retropropagación que aborda el cuello de botella de memoria O(L * BN) en redes neuronales profundas. Desacopla la memoria de activación de las dimensiones de lote y secuencia, preservando la señal de error exacta mientras calcula actualizaciones de peso con tensores muy comprimidos y propone mecanismos novedosos para estabilizar gradientes.

neural networks deep learning Memory Optimization backpropagation

RESEARCHarXiv CS.LG·hace 28d

Feature Repulsion and Spectral Lock-in: An Empirical Study of Two-Layer Network Grokking

Este estudio empírico investiga el teorema de repulsión de características en el grokking de redes de dos capas, propuesto por Tian (2025). Se observa una clara disociación estructura-mecanismo, con la regla de signo predicha manteniéndose robusta en pares de características similares.

neural networks feature learning grokking deep learning

RESEARCHarXiv CS.LG·hace 7d

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Se presentan los Modelos de Cuello de Botella de Concepto de Hoeffding (HCBM) para ofrecer agregaciones no lineales y dispersas de puntuaciones de concepto, mejorando la explicabilidad y precisión de las predicciones de aprendizaje profundo. Este método aprovecha la descomposición funcional de Hoeffding de árboles de gradiente impulsado para superar las limitaciones de los CBM lineales existentes, que adolecen de un gran número de conceptos y posible fuga de información.

deep learning machine learning computer vision Explainable AI

RESEARCHarXiv CS.AI·hace 24d

Conditional Attribute Estimation with Autoregressive Sequence Models

Esta investigación introduce los Conditional Attribute Transformers, un método novedoso para estimar conjuntamente la probabilidad del siguiente token y el valor de un atributo condicional a cada selección potencial del siguiente token. Este marco permite capacidades críticas como la asignación de crédito por token y el análisis contrafactual en una sola pasada, superando las limitaciones de los modelos generativos tradicionales.

deep learning generative models sequence models Conditional Attribute Estimation

RESEARCHarXiv CS.LG·24/4/2026

Validating a Deep Learning Algorithm to Identify Patients with Glaucoma using Systemic Electronic Health Records

Esta investigación valida un algoritmo de deep learning para la evaluación del riesgo de glaucoma utilizando registros electrónicos de salud sistémicos. El modelo, ajustado con datos de pacientes de Stanford, logró un AUROC de 0.883 y un PPV de 0.657, mostrando un gran potencial para la detección previa escalable y accesible.

deep learning Medical Diagnosis healthcare AI EHR

RESEARCHarXiv CS.LG·24/4/2026

Do Masked Autoencoders Improve Downhole Prediction? An Empirical Study on Real Well Drilling Data

Este estudio evalúa el preentrenamiento con Masked Autoencoders (MAE) para la predicción de métricas de perforación en pozos, abordando la asimetría de etiquetado en datos de telemetría. Utilizando datos reales de perforación, el MAE redujo el error absoluto medio de prueba en un 19.8% en comparación con las líneas base GRU supervisadas para la predicción del Volumen Total de Lodo.

industrial AI deep learning machine learning

RESEARCHarXiv CS.LG·hace 28d

Distributional Reinforcement Learning via the Cram\'er Distance

Este artículo introduce el algoritmo C-DSAC, que aplica Soft Actor-Critic en un entorno de aprendizaje por refuerzo distribucional minimizando la distancia de Cramér. Los resultados empíricos muestran que C-DSAC supera a los métodos existentes, especialmente en entornos complejos, debido a sus actualizaciones de valores Q impulsadas por la confianza.

deep learning reinforcement learning learning Algorithms

RESEARCHarXiv CS.LG·7/5/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW es un nuevo optimizador que utiliza un mecanismo de autoatención para ajustar dinámicamente las tasas de aprendizaje y la caída de peso por grupo de parámetros, superando la limitación de los hiperparámetros uniformes. El módulo de atención se entrena mediante un objetivo de metaaprendizaje que combina la alineación de gradientes, la disminución de la pérdida y la brecha de generalización.

Meta-Learning deep learning learning AI Research

RESEARCHarXiv CS.LG·7/5/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Esta investigación introduce EdgeRazor, un marco ligero diseñado para desplegar Grandes Modelos de Lenguaje en dispositivos con recursos limitados. Aprovecha la destilación consciente de la cuantificación de precisión mixta para convertir modelos de precisión completa a formatos de bits más bajos, superando las limitaciones de los métodos de cuantificación previos.

LLMs deep learning quantization model optimization

RESEARCHarXiv CS.LG·7/5/2026

Lookahead Drifting Model

Este artículo propone un modelo de deriva "lookahead" para el mapeo de distribuciones, que mejora el rendimiento en la generación de imágenes con evaluación funcional neuronal de un solo paso. El modelo calcula un conjunto de términos de deriva secuencialmente en cada iteración de entrenamiento, utilizando muestras positivas y las salidas del modelo para capturar información de gradiente de orden superior.

neural networks Optimization deep learning machine learning

RESEARCHarXiv CS.LG·hace 29d

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Este artículo presenta LKV (Learned KV Eviction), un nuevo enfoque para optimizar la memoria caché de Key-Value (KV) en Large Language Models (LLMs). LKV formula la compresión de caché KV como un problema de optimización diferenciable de extremo a extremo, aprendiendo presupuestos y selección de tokens para superar las limitaciones de los métodos heurísticos.

deep learning Memory Optimization efficiency KV cache

RESEARCHarXiv CS.LG·hace 22d

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Este artículo introduce Group-Query Latent Attention (GQLA), una modificación de la Multi-head Latent Attention (MLA). GQLA expone dos rutas de decodificación algebraicamente equivalentes, permitiendo que un único conjunto de pesos entrenados se adapte eficientemente a diferentes plataformas de hardware como H100 y H20, sin necesidad de reentrenamiento.

deep learning Attention Mechanism AI Efficiency hardware optimization

RESEARCHDEV.to AI·25/4/2026

PP-LCNet: A Lightweight CPU Convolutional Neural Network

PP-LCNet introduce una red neuronal convolucional ligera optimizada para un rendimiento eficiente en CPUs. Esta arquitectura se enfoca en lograr alta precisión con mínimas demandas computacionales, adecuada para entornos con recursos limitados.

deep learning lightweight models computer vision Convolutional Neural Networks

RESEARCHarXiv CS.LG·hace 20d

Theory-optimal Quantization Based on Flatness

Esta investigación modela la relación entre el error de cuantificación y los valores atípicos en los Grandes Modelos de Lenguaje (LLM) e introduce una nueva métrica, Flatness, para cuantificar la distribución de valores atípicos. Con base en esto, deriva una solución teóricamente óptima y propone la Cuantificación Diagonal Bidireccional (BDQ) para la cuantificación post-entrenamiento.

deep learning machine learning quantization AI

RESEARCHarXiv CS.AI·hace 20d

KAN-MLP-Mixer: A comprehensive investigation of the usage of Kolmogorov-Arnold Networks (KANs) for improving IMU-based Human Activity Recognition

Las Redes de Kolmogorov-Arnold (KANs) son excepcionales en datos limpios, pero tienen dificultades con datasets ruidosos del mundo real, mientras que los MLPs convencionales son más tolerantes al ruido y eficientes. Este trabajo propone una arquitectura híbrida KAN-MLP para el Reconocimiento de Actividad Humana basado en IMU, que combina la precisión de las KANs con la robustez y eficiencia de los MLPs.

neural networks deep learning machine learning Human Activity Recognition