deep learning

263 items

RESEARCHarXiv CS.LG·hace 11d

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Este artículo investiga los orígenes mecanicistas del olvido catastrófico en Grandes Modelos de Lenguaje (LLMs), comparando el Aprendizaje por Refuerzo (RL) con el Ajuste Fino Supervisado (SFT). Revela que el RL preserva los circuitos computacionales internos de manera más efectiva, mitigando el olvido de capacidades anteriores, a diferencia del SFT que causa mayor interrupción en los circuitos.

LLMs deep learning machine learning Catastrophic Forgetting

RESEARCHarXiv CS.CL·hace 6d

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Investigadores descubrieron que el rendimiento de los modelos de lenguaje puede mejorar significativamente cuando las capas más profundas aprenden vectores de valor sin contexto, conservando la información original del token. Esto elimina la necesidad de recalcular o almacenar en caché persistentemente estos valores, ya que el componente dependiente del contexto aporta poco beneficio adicional.

neural networks LLMs deep learning Attention Mechanism

RESEARCHarXiv CS.LG·hace 8d

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Este estudio presenta Gait2Hip-60, un marco de aprendizaje profundo para predecir las fuerzas musculares de la cadera y los momentos articulares directamente de la cinemática de la marcha de cadencia múltiple. Compara los modelos LSTM, Transformer y Mamba, evaluando su rendimiento en adultos sanos y en una cohorte externa de pacientes.

biomechanics deep learning gait analysis musculoskeletal simulation

RESEARCHarXiv CS.AI·hace 6d

Evaluating Transformer and LSTM Frameworks for Prediction in Ungauged Basins

Este estudio evalúa los marcos Transformer y LSTM para la inferencia de flujo en cuencas no aforadas con información hidrológica limitada. La arquitectura LSTM mostró un rendimiento general más sólido que el modelo Transformer, y la incorporación de información aguas abajo mejoró aún más el rendimiento de todos los modelos.

deep learning Environmental Modeling machine learning AI

RESEARCHarXiv CS.LG·hace 6d

Geometry-Aware Tabular Diffusion

Se introduce Geometry-Aware Tabular Diffusion (GATD) para la síntesis tabular, mejorando los denoisers con ángulos y longitudes pareadas de las diferencias de valores de columna. Logra un rendimiento de vanguardia con menos parámetros, reduciendo errores y demostrando que la supervisión relacional explícita impulsa las ganancias.

Diffusion Models data synthesis deep learning machine learning

RESEARCHarXiv CS.LG·hace 15d

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

El artículo presenta Tensor Cache, una caché de dos niveles para Transformers que optimiza las cachés KV. Combina la atención softmax de ventana deslizante (L1) con una memoria de peso rápido de producto externo de tamaño fijo (L2) para gestionar los tokens desalojados, mejorando el acceso a evidencia relevante fuera de la ventana de contexto.

Associative Memory deep learning AI Caching

RESEARCHarXiv CS.LG·hace 8d

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn es un nuevo framework para la previsión escalable de series temporales de alta dimensión, que supera la dicotomía entre modelos dependientes e independientes del canal. Utiliza un libro de códigos de prototipos latentes para aprender patrones de correlación universales, superando significativamente las arquitecturas de vanguardia en escenarios de transferencia de pocos ejemplos.

forecasting pretraining deep learning machine learning

RESEARCHarXiv CS.LG·hace 15d

FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning

Esta investigación presenta FuRA (Full-Rank Adaptation), un nuevo método de ajuste fino eficiente en parámetros que aborda las limitaciones de las técnicas existentes mediante el preacondicionamiento espectral. Al reparametrizar matrices de peso a través de la Descomposición de Valor Singular de rango completo y restringir las actualizaciones, FuRA supera el ajuste fino completo sin restricciones manteniendo la eficiencia.

Optimization deep learning machine learning spectral preconditioning

RESEARCHarXiv CS.LG·hace 12d

A Simple State Space Model Excels at Multivariate Time Series Classification

Esta investigación estudia sistemáticamente los modelos de espacio de estados estructurados (SSM) para la clasificación de series temporales, comparando arquitecturas complejas basadas en Mamba con SSM diagonales más simples (S4D). Sorprendentemente, S4D supera consistentemente a las variantes de Mamba en precisión y eficiencia en grandes benchmarks, desafiando la suposición de que una mayor complejidad del modelo conduce a un mejor rendimiento en este dominio.

Time Series Classification deep learning machine learning Sequence Modeling

RESEARCHarXiv CS.LG·hace 12d

Comparative Analysis of Liquid Neural Networks and LSTM for Sequential Pattern Recognition: Robustness, Efficiency, and Clinical Utility

Las Redes Neuronales Líquidas (LNN) modelan la evolución del estado oculto como una ecuación diferencial continua, a diferencia de las RNN y LSTM de tiempo discreto. Este estudio compara LNN con LSTM en cuatro modalidades secuenciales, mostrando la superior eficiencia de parámetros y robustez de las LNN en dominios temporales nativos y entornos clínicos.

neural networks Clinical AI deep learning machine learning

DOCDEV.to AI·16/4/2026

Understanding Transformers Part 8: Shared Weights in Self-Attention

El artículo explica que los Transformers reutilizan el mismo conjunto de pesos para consultas, claves y valores en todas las palabras de entrada, lo que permite la computación paralela. Esta reutilización hace que el mecanismo de autoatención sea muy eficiente.

neural networks Self-Attention deep learning Parallel Computing

ARTICLEDEV.to AI·10/4/2026

Neural Machine Translation and Sequence-to-sequence Models: A Tutorial

Este tutorial aborda a tradução automática neural e os modelos sequência a sequência, explorando seus fundamentos e aplicações essenciais no campo da inteligência artificial.

Neural Machine Translation deep learning Sequence-to-sequence Models NLP

RESEARCHDEV.to AI·10/4/2026

LongLive: Real-time Interactive Long Video Generation

Este conteúdo aborda LongLive, um sistema para a geração interativa e em tempo real de vídeos longos. A tecnologia foca em produzir sequências de vídeo estendidas de forma dinâmica.

deep learning interactive AI video generation real-time AI

RESEARCHDEV.to AI·hace 28d

Deep Time Series Models: A Comprehensive Survey and Benchmark

Este artículo ofrece una encuesta y un benchmark exhaustivos de modelos de aprendizaje profundo aplicados a datos de series temporales. Revisa sistemáticamente varias arquitecturas y su rendimiento en diferentes tareas y conjuntos de datos.

Survey deep learning machine learning Benchmarking

RESEARCHDEV.to AI·27/4/2026

Review of Deep Learning

Este contenido es una revisión en profundidad de Deep Learning, explorando sus fundamentos y avances. Ofrece un análisis exhaustivo de las técnicas y aplicaciones en este campo de la inteligencia artificial.

review deep learning AI

RESEARCHDEV.to AI·25/4/2026

Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU SparseAutoencoders

Este contenido describe una investigación centrada en mejorar la fidelidad de la reconstrucción utilizando un enfoque novedoso llamado JumpReLU SparseAutoencoders.

deep learning autoencoders machine learning

RESEARCHDEV.to AI·hace 24d

Improving Deep Pancreas Segmentation in CT and MRI Images via Recurrent NeuralContextual Learning and Direct Loss Function

Este artículo propone un método innovador para mejorar la segmentación del páncreas en imágenes de TC y RM. Emplea aprendizaje contextual de redes neuronales recurrentes y una función de pérdida directa para optimizar la precisión.

CT deep learning pancreas segmentation MRI

RESEARCHDEV.to AI·28/4/2026

You Only Watch Once: A Unified CNN Architecture for Real-Time SpatiotemporalAction Localization

El título describe una arquitectura CNN unificada para la localización de acciones espacio-temporales en tiempo real. Este trabajo se centra en mejorar la eficiencia y precisión en la detección de actividades en vídeos.

CNN deep learning computer vision Action Recognition

ARTICLEDEV.to AI·15/4/2026

A Modern Take on the Bias-Variance Tradeoff in Neural Networks

Este artículo ofrece una perspectiva moderna sobre el clásico dilema de sesgo-varianza, reevaluando su aplicación y relevancia en el contexto de las redes neuronales actuales. Explora cómo este concepto fundamental se manifiesta e impacta el rendimiento en modelos de aprendizaje profundo.

neural networks model performance deep learning machine learning

RESEARCHDEV.to AI·19/4/2026

Camera identification with deep convolutional networks

Esta investigación explora el uso de redes convolucionales profundas para la tarea específica de identificación de cámaras. Profundiza en cómo estos modelos avanzados de IA pueden diferenciar entre varias cámaras.

deep learning computer vision AI