← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.CL·21/4/2026

Brain-CLIPLM: Decoding Compressed Semantic Representations in EEG for Language Reconstruction

Este trabajo propone una hipótesis de compresión semántica para superar las limitaciones en la decodificación de lenguaje a partir de EEG, sugiriendo que las señales EEG codifican anclajes semánticos comprimidos en lugar de la estructura lingüística completa. Presenta Brain-CLIPLM, un marco de dos etapas para la extracción de anclajes semánticos mediante aprendizaje contrastivo y la reconstrucción de oraciones utilizando un modelo de lenguaje grande basado en recuperación.

27
RESEARCHarXiv CS.LG·4/5/2026

Cloud Is Closer Than It Appears: Revisiting the Tradeoffs of Distributed Real-Time Inference

Este artículo revisita la viabilidad de la inferencia basada en la nube para sistemas ciberfísicos sensibles a la latencia, desafiando la suposición de que el procesamiento en el dispositivo es siempre superior. Demuestra que las plataformas en la nube de alto rendimiento pueden igualar o superar el rendimiento en el dispositivo para tareas de control en tiempo real, amortizando los retrasos de la red y las colas.

27
RESEARCHarXiv CS.LG·7/5/2026

Continual Distillation of Teachers from Different Domains

Esta investigación introduce la Destilación Continua (CD), un nuevo paradigma donde un modelo estudiante aprende secuencialmente de un flujo de modelos maestros sin retener acceso a los anteriores. Aborda desafíos como la transferencia (UKT) y el olvido (UKF) de conocimiento no visto a través de la Destilación de Datos Externos Propios (SE2D), que utiliza datos externos sin etiquetar para estabilizar el aprendizaje entre maestros heterogéneos.

27
RESEARCHarXiv CS.LG·21/4/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Este artículo presenta BASIS, un algoritmo eficiente de retropropagación que aborda el cuello de botella de memoria O(L * BN) en redes neuronales profundas. Desacopla la memoria de activación de las dimensiones de lote y secuencia, preservando la señal de error exacta mientras calcula actualizaciones de peso con tensores muy comprimidos y propone mecanismos novedosos para estabilizar gradientes.

27
RESEARCHarXiv CS.LG·hace 7d

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Se presentan los Modelos de Cuello de Botella de Concepto de Hoeffding (HCBM) para ofrecer agregaciones no lineales y dispersas de puntuaciones de concepto, mejorando la explicabilidad y precisión de las predicciones de aprendizaje profundo. Este método aprovecha la descomposición funcional de Hoeffding de árboles de gradiente impulsado para superar las limitaciones de los CBM lineales existentes, que adolecen de un gran número de conceptos y posible fuga de información.

27
RESEARCHarXiv CS.AI·hace 24d

Conditional Attribute Estimation with Autoregressive Sequence Models

Esta investigación introduce los Conditional Attribute Transformers, un método novedoso para estimar conjuntamente la probabilidad del siguiente token y el valor de un atributo condicional a cada selección potencial del siguiente token. Este marco permite capacidades críticas como la asignación de crédito por token y el análisis contrafactual en una sola pasada, superando las limitaciones de los modelos generativos tradicionales.

27
RESEARCHarXiv CS.LG·24/4/2026

Validating a Deep Learning Algorithm to Identify Patients with Glaucoma using Systemic Electronic Health Records

Esta investigación valida un algoritmo de deep learning para la evaluación del riesgo de glaucoma utilizando registros electrónicos de salud sistémicos. El modelo, ajustado con datos de pacientes de Stanford, logró un AUROC de 0.883 y un PPV de 0.657, mostrando un gran potencial para la detección previa escalable y accesible.

27
RESEARCHarXiv CS.LG·24/4/2026

Do Masked Autoencoders Improve Downhole Prediction? An Empirical Study on Real Well Drilling Data

Este estudio evalúa el preentrenamiento con Masked Autoencoders (MAE) para la predicción de métricas de perforación en pozos, abordando la asimetría de etiquetado en datos de telemetría. Utilizando datos reales de perforación, el MAE redujo el error absoluto medio de prueba en un 19.8% en comparación con las líneas base GRU supervisadas para la predicción del Volumen Total de Lodo.

27
RESEARCHarXiv CS.LG·hace 28d

Distributional Reinforcement Learning via the Cram\'er Distance

Este artículo introduce el algoritmo C-DSAC, que aplica Soft Actor-Critic en un entorno de aprendizaje por refuerzo distribucional minimizando la distancia de Cramér. Los resultados empíricos muestran que C-DSAC supera a los métodos existentes, especialmente en entornos complejos, debido a sus actualizaciones de valores Q impulsadas por la confianza.

27
RESEARCHarXiv CS.LG·7/5/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW es un nuevo optimizador que utiliza un mecanismo de autoatención para ajustar dinámicamente las tasas de aprendizaje y la caída de peso por grupo de parámetros, superando la limitación de los hiperparámetros uniformes. El módulo de atención se entrena mediante un objetivo de metaaprendizaje que combina la alineación de gradientes, la disminución de la pérdida y la brecha de generalización.

27
RESEARCHarXiv CS.LG·7/5/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Esta investigación introduce EdgeRazor, un marco ligero diseñado para desplegar Grandes Modelos de Lenguaje en dispositivos con recursos limitados. Aprovecha la destilación consciente de la cuantificación de precisión mixta para convertir modelos de precisión completa a formatos de bits más bajos, superando las limitaciones de los métodos de cuantificación previos.

27
RESEARCHarXiv CS.LG·7/5/2026

Lookahead Drifting Model

Este artículo propone un modelo de deriva "lookahead" para el mapeo de distribuciones, que mejora el rendimiento en la generación de imágenes con evaluación funcional neuronal de un solo paso. El modelo calcula un conjunto de términos de deriva secuencialmente en cada iteración de entrenamiento, utilizando muestras positivas y las salidas del modelo para capturar información de gradiente de orden superior.

27
RESEARCHarXiv CS.LG·hace 29d

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Este artículo presenta LKV (Learned KV Eviction), un nuevo enfoque para optimizar la memoria caché de Key-Value (KV) en Large Language Models (LLMs). LKV formula la compresión de caché KV como un problema de optimización diferenciable de extremo a extremo, aprendiendo presupuestos y selección de tokens para superar las limitaciones de los métodos heurísticos.

27
RESEARCHarXiv CS.LG·hace 22d

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Este artículo introduce Group-Query Latent Attention (GQLA), una modificación de la Multi-head Latent Attention (MLA). GQLA expone dos rutas de decodificación algebraicamente equivalentes, permitiendo que un único conjunto de pesos entrenados se adapte eficientemente a diferentes plataformas de hardware como H100 y H20, sin necesidad de reentrenamiento.

27
RESEARCHarXiv CS.LG·hace 20d

Theory-optimal Quantization Based on Flatness

Esta investigación modela la relación entre el error de cuantificación y los valores atípicos en los Grandes Modelos de Lenguaje (LLM) e introduce una nueva métrica, Flatness, para cuantificar la distribución de valores atípicos. Con base en esto, deriva una solución teóricamente óptima y propone la Cuantificación Diagonal Bidireccional (BDQ) para la cuantificación post-entrenamiento.

27
RESEARCHarXiv CS.AI·hace 20d

KAN-MLP-Mixer: A comprehensive investigation of the usage of Kolmogorov-Arnold Networks (KANs) for improving IMU-based Human Activity Recognition

Las Redes de Kolmogorov-Arnold (KANs) son excepcionales en datos limpios, pero tienen dificultades con datasets ruidosos del mundo real, mientras que los MLPs convencionales son más tolerantes al ruido y eficientes. Este trabajo propone una arquitectura híbrida KAN-MLP para el Reconocimiento de Actividad Humana basado en IMU, que combina la precisión de las KANs con la robustez y eficiencia de los MLPs.

27