← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·hace 11d

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Este artículo investiga los orígenes mecanicistas del olvido catastrófico en Grandes Modelos de Lenguaje (LLMs), comparando el Aprendizaje por Refuerzo (RL) con el Ajuste Fino Supervisado (SFT). Revela que el RL preserva los circuitos computacionales internos de manera más efectiva, mitigando el olvido de capacidades anteriores, a diferencia del SFT que causa mayor interrupción en los circuitos.

27
RESEARCHarXiv CS.CL·hace 6d

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Investigadores descubrieron que el rendimiento de los modelos de lenguaje puede mejorar significativamente cuando las capas más profundas aprenden vectores de valor sin contexto, conservando la información original del token. Esto elimina la necesidad de recalcular o almacenar en caché persistentemente estos valores, ya que el componente dependiente del contexto aporta poco beneficio adicional.

27
RESEARCHarXiv CS.LG·hace 8d

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Este estudio presenta Gait2Hip-60, un marco de aprendizaje profundo para predecir las fuerzas musculares de la cadera y los momentos articulares directamente de la cinemática de la marcha de cadencia múltiple. Compara los modelos LSTM, Transformer y Mamba, evaluando su rendimiento en adultos sanos y en una cohorte externa de pacientes.

27
RESEARCHarXiv CS.LG·hace 6d

Geometry-Aware Tabular Diffusion

Se introduce Geometry-Aware Tabular Diffusion (GATD) para la síntesis tabular, mejorando los denoisers con ángulos y longitudes pareadas de las diferencias de valores de columna. Logra un rendimiento de vanguardia con menos parámetros, reduciendo errores y demostrando que la supervisión relacional explícita impulsa las ganancias.

27
RESEARCHarXiv CS.LG·hace 8d

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn es un nuevo framework para la previsión escalable de series temporales de alta dimensión, que supera la dicotomía entre modelos dependientes e independientes del canal. Utiliza un libro de códigos de prototipos latentes para aprender patrones de correlación universales, superando significativamente las arquitecturas de vanguardia en escenarios de transferencia de pocos ejemplos.

27
RESEARCHarXiv CS.LG·hace 15d

FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning

Esta investigación presenta FuRA (Full-Rank Adaptation), un nuevo método de ajuste fino eficiente en parámetros que aborda las limitaciones de las técnicas existentes mediante el preacondicionamiento espectral. Al reparametrizar matrices de peso a través de la Descomposición de Valor Singular de rango completo y restringir las actualizaciones, FuRA supera el ajuste fino completo sin restricciones manteniendo la eficiencia.

27
RESEARCHarXiv CS.LG·hace 12d

A Simple State Space Model Excels at Multivariate Time Series Classification

Esta investigación estudia sistemáticamente los modelos de espacio de estados estructurados (SSM) para la clasificación de series temporales, comparando arquitecturas complejas basadas en Mamba con SSM diagonales más simples (S4D). Sorprendentemente, S4D supera consistentemente a las variantes de Mamba en precisión y eficiencia en grandes benchmarks, desafiando la suposición de que una mayor complejidad del modelo conduce a un mejor rendimiento en este dominio.

27
RESEARCHarXiv CS.LG·hace 12d

Comparative Analysis of Liquid Neural Networks and LSTM for Sequential Pattern Recognition: Robustness, Efficiency, and Clinical Utility

Las Redes Neuronales Líquidas (LNN) modelan la evolución del estado oculto como una ecuación diferencial continua, a diferencia de las RNN y LSTM de tiempo discreto. Este estudio compara LNN con LSTM en cuatro modalidades secuenciales, mostrando la superior eficiencia de parámetros y robustez de las LNN en dominios temporales nativos y entornos clínicos.

27
RESEARCHDEV.to AI·27/4/2026

Review of Deep Learning

Este contenido es una revisión en profundidad de Deep Learning, explorando sus fundamentos y avances. Ofrece un análisis exhaustivo de las técnicas y aplicaciones en este campo de la inteligencia artificial.

27