deep learning

263 items

ARTICLEDEV.to AI·19/4/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Este artículo explora las limitaciones de las LSTMs para mantener el contexto, a pesar de su capacidad de memoria mejorada en comparación con las RNNs básicas. El autor utiliza una experiencia personal de aprendizaje de inglés para ilustrar los tres problemas específicos que las LSTMs aún no resuelven, sentando las bases para discutir los mecanismos de atención.

deep learning Attention Mechanisms Natural Language Processing

RESEARCHDEV.to AI·hace 24d

Deep Neural Networks for Survival Analysis Based on a Multi-Task Framework

Esta investigación explora la aplicación de redes neuronales profundas en el análisis de supervivencia, empleando un marco multi-tarea. El enfoque tiene como objetivo mejorar la predicción y el modelado de datos de tiempo hasta el evento mediante el aprovechamiento de arquitecturas complejas de redes neuronales.

neural networks multi-task learning deep learning survival analysis

RESEARCHDEV.to AI·10/5/2026

Neural Language Correction with Character-Based Attention

Esta investigación introduce un enfoque novedoso para la corrección neural del lenguaje, utilizando mecanismos de atención basados en caracteres. El método busca mejorar la precisión y la robustez de la corrección automática de errores gramaticales y ortográficos en el texto.

neural networks deep learning Attention Mechanisms Natural Language Processing

RESEARCHDEV.to AI·27/4/2026

An Attention Free Transformer

Este contenido introduce el concepto de un Transformer Libre de Atención, un nuevo diseño arquitectónico que busca replicar las capacidades de los Transformers tradicionales sin el mecanismo de autoatención. Probablemente explora mecanismos alternativos para el procesamiento de información contextual en tareas de secuencia a secuencia.

neural networks deep learning AI Architectures Transformers

RESEARCHarXiv CS.LG·15/4/2026

Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids

Esta investigación introduce la Thermodynamic Liquid Manifold Network (TLMN), un modelo de aprendizaje profundo limitado por la física para la previsión solar en microrredes autónomas y fuera de la red. Aborda anomalías críticas en los modelos actuales integrando termodinámica atmosférica y mecánica celeste para prevenir predicciones físicamente imposibles.

microgrids deep learning Solar Forecasting Thermodynamics

RESEARCHarXiv CS.LG·15/4/2026

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Este artículo propone un nuevo marco basado en bootstrap para la cuantificación de incertidumbre (UQ) en Redes Neuronales Convolucionales (CNN), abordando la falta de herramientas UQ teóricamente consistentes. El método emplea redes neuronales convexificadas para establecer consistencia teórica, ofrece una carga computacional significativamente menor y explora un enfoque novedoso de aprendizaje por transferencia.

Theoretical Consistency Bootstrap deep learning uncertainty quantification

RESEARCHarXiv CS.AI·25/4/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Este trabajo introduce un marco innovador para la asignación adaptativa de cómputo en tiempo de prueba, ajustando conjuntamente dónde se gasta la computación y cómo se realiza la generación. El método utiliza una fase de calentamiento para identificar consultas fáciles y luego concentra más computación en consultas no resueltas, remodelando las distribuciones de generación con demostraciones en contexto en evolución.

deep learning Machine Learning in-context learning AI

RESEARCHarXiv CS.LG·28/4/2026

AutoCompress: Critical Layer Isolation for Efficient Transformer Compression

AutoCompress es un método de compresión de transformadores que aísla la Capa 0, considerada crítica, manteniéndola a plena dimensionalidad. Aplicado a GPT-2 Medium, logra una reducción del 59,5% en los parámetros con un rendimiento muy superior a una línea base uniforme.

AI architecture model efficiency deep learning GPT-2

RESEARCHarXiv CS.LG·5/5/2026

Fast Log-Domain Sinkhorn Optimal Transport with Warp-Level GPU Reductions

Este artículo presenta FastSinkhorn, una implementación CUDA nativa del algoritmo de Sinkhorn en el dominio logarítmico, que ofrece soluciones más rápidas y estables para problemas de transporte óptimo (OT). Logra una aceleración de 12x sobre la biblioteca POT y 5.9x sobre las bases de PyTorch aceleradas por GPU, manteniendo la estabilidad numérica para pequeños parámetros de regularización.

GPU computing deep learning Sinkhorn Algorithm Numerical Stability

RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.LG·27/4/2026

LTBs-KAN: Linear-Time B-splines Kolmogorov-Arnold Networks

LTBs-KAN es una nueva arquitectura de red neuronal que resuelve la lentitud de las KANs tradicionales, presentando complejidad lineal y reducción de parámetros. El trabajo demuestra mejoras significativas en la eficiencia computacional y la reducción de parámetros en conjuntos de datos como MNIST, Fashion-MNIST y CIFAR-10.

neural networks B-splines deep learning Computational Efficiency

RESEARCHarXiv CS.LG·1/5/2026

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Los modelos de difusión enmascarada (MDM) descartan predicciones para tokens que permanecen enmascarados, lo que limita el refinamiento entre pasos. Este artículo propone los Modelos de Difusión Enmascarada Auto-Condicionados (SCMDM), una adaptación post-entrenamiento que condiciona cada paso de denoising en las predicciones de estado limpio anteriores del propio modelo. Esto mejora el rendimiento sin cambios arquitectónicos importantes ni evaluaciones adicionales.

Diffusion Models model adaptation deep learning Machine Learning

RESEARCHarXiv CS.LG·27/4/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Esta investigación estudia la necesidad de tokens de memoria aprendidos como bloc de notas computacional para Transformers Universales con Tiempo de Computación Adaptativo (ACT) en un benchmark de razonamiento combinatorio. Concluye que los tokens de memoria son empíricamente necesarios para un rendimiento no trivial, identificando un umbral inferior pronunciado para el recuento óptimo y una trampa común de inicialización del enrutador.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·8/5/2026

Are Flat Minima an Illusion?

Este artículo desafía la visión convencional de que los mínimos planos conducen inherentemente a una mejor generalización, mostrando que la reparametrización que preserva la función puede alterar drásticamente la nitidez percibida de un mínimo. Introduce la "debilidad" —una medida invariante a la reparametrización basada en lo que hace la red— como el verdadero motor de la generalización, demostrando su optimalidad minimax y correlación con los límites PAC-Bayes.

neural networks Optimization Generalization Machine Learning Theory

RESEARCHDEV.to AI·8/4/2026

Neural Models for Information Retrieval

Este conteúdo aborda o uso de modelos neurais para aprimorar os sistemas de recuperação de informação. Explora como a inteligência artificial pode otimizar a busca e organização de grandes volumes de dados.

neural networks deep learning Machine Learning Information Retrieval

RESEARCHarXiv CS.LG·16/4/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Este artículo identifica la entropía espectral normalizada como un parámetro escalar para la transición de grokking, donde los modelos generalizan mucho después de la memorización. La investigación demuestra que el colapso de la entropía precede a la generalización y que las intervenciones causales confirman su papel crítico, proporcionando un modelo predictivo para el inicio del grokking.

neural networks grokking Generalization deep learning

RESEARCHarXiv CS.LG·8/4/2026

El Nino Prediction Based on Weather Forecast and Geographical Time-series Data

Este artigo propõe um novo framework para aprimorar a previsão de eventos El Niño, integrando dados de previsão do tempo e geográficos. Ele utiliza uma arquitetura híbrida de deep learning, combinando CNN para extração espacial e LSTM para modelagem temporal, visando identificar precursores complexos.

CNN deep learning Weather Forecasting El Nino Prediction

RESEARCHarXiv CS.LG·17/4/2026

Towards Verified and Targeted Explanations through Formal Methods

Este artículo presenta ViTaX, un marco XAI formal que genera explicaciones semifactuales dirigidas con garantías matemáticas. Aborda la deficiencia de los métodos XAI existentes al no ofrecer garantías de confianza para redes neuronales en dominios críticos como la conducción autónoma y el diagnóstico médico.

deep learning formal methods Explainable AI Safety-Critical Systems

RESEARCHarXiv CS.CL·17/4/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Esta investigación examina si los Grandes Modelos de Lenguaje (LLMs) pueden identificar fallas metodológicas, como la fuga de datos, en estudios de aprendizaje automático publicados. Un estudio de caso mostró que seis LLMs de vanguardia detectaron consistentemente fallas de evaluación en un artículo de reconocimiento de gestos debido a la partición de datos no independiente.

deep learning Machine Learning large language models AI evaluation

RESEARCHarXiv CS.CL·hace 20d

Pseudo-Siamese Network for Planning in Target-Oriented Proactive Dialogues

El artículo propone una Red Pseudo-Siamesa Bidireccional Enfocada hacia Adelante (FF-BPSN) para la planificación de rutas de diálogo en sistemas de diálogo proactivos orientados a objetivos. Esta red emplea decodificadores idénticos basados en transformadores para la planificación bidireccional e integra información para construir una ruta hacia adelante, guiando a los modelos de lenguaje en la generación de respuestas.

transformer networks deep learning NLP AI