← heapsort-ai

deep learning

263 items

ARTICLEDEV.to AI·19/4/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Este artículo explora las limitaciones de las LSTMs para mantener el contexto, a pesar de su capacidad de memoria mejorada en comparación con las RNNs básicas. El autor utiliza una experiencia personal de aprendizaje de inglés para ilustrar los tres problemas específicos que las LSTMs aún no resuelven, sentando las bases para discutir los mecanismos de atención.

27
RESEARCHDEV.to AI·27/4/2026

An Attention Free Transformer

Este contenido introduce el concepto de un Transformer Libre de Atención, un nuevo diseño arquitectónico que busca replicar las capacidades de los Transformers tradicionales sin el mecanismo de autoatención. Probablemente explora mecanismos alternativos para el procesamiento de información contextual en tareas de secuencia a secuencia.

27
RESEARCHarXiv CS.LG·15/4/2026

Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids

Esta investigación introduce la Thermodynamic Liquid Manifold Network (TLMN), un modelo de aprendizaje profundo limitado por la física para la previsión solar en microrredes autónomas y fuera de la red. Aborda anomalías críticas en los modelos actuales integrando termodinámica atmosférica y mecánica celeste para prevenir predicciones físicamente imposibles.

27
RESEARCHarXiv CS.LG·15/4/2026

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Este artículo propone un nuevo marco basado en bootstrap para la cuantificación de incertidumbre (UQ) en Redes Neuronales Convolucionales (CNN), abordando la falta de herramientas UQ teóricamente consistentes. El método emplea redes neuronales convexificadas para establecer consistencia teórica, ofrece una carga computacional significativamente menor y explora un enfoque novedoso de aprendizaje por transferencia.

27
RESEARCHarXiv CS.AI·25/4/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Este trabajo introduce un marco innovador para la asignación adaptativa de cómputo en tiempo de prueba, ajustando conjuntamente dónde se gasta la computación y cómo se realiza la generación. El método utiliza una fase de calentamiento para identificar consultas fáciles y luego concentra más computación en consultas no resueltas, remodelando las distribuciones de generación con demostraciones en contexto en evolución.

27
RESEARCHarXiv CS.LG·5/5/2026

Fast Log-Domain Sinkhorn Optimal Transport with Warp-Level GPU Reductions

Este artículo presenta FastSinkhorn, una implementación CUDA nativa del algoritmo de Sinkhorn en el dominio logarítmico, que ofrece soluciones más rápidas y estables para problemas de transporte óptimo (OT). Logra una aceleración de 12x sobre la biblioteca POT y 5.9x sobre las bases de PyTorch aceleradas por GPU, manteniendo la estabilidad numérica para pequeños parámetros de regularización.

27
RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

27
RESEARCHarXiv CS.LG·1/5/2026

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Los modelos de difusión enmascarada (MDM) descartan predicciones para tokens que permanecen enmascarados, lo que limita el refinamiento entre pasos. Este artículo propone los Modelos de Difusión Enmascarada Auto-Condicionados (SCMDM), una adaptación post-entrenamiento que condiciona cada paso de denoising en las predicciones de estado limpio anteriores del propio modelo. Esto mejora el rendimiento sin cambios arquitectónicos importantes ni evaluaciones adicionales.

27
RESEARCHarXiv CS.LG·27/4/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Esta investigación estudia la necesidad de tokens de memoria aprendidos como bloc de notas computacional para Transformers Universales con Tiempo de Computación Adaptativo (ACT) en un benchmark de razonamiento combinatorio. Concluye que los tokens de memoria son empíricamente necesarios para un rendimiento no trivial, identificando un umbral inferior pronunciado para el recuento óptimo y una trampa común de inicialización del enrutador.

27
RESEARCHarXiv CS.LG·8/5/2026

Are Flat Minima an Illusion?

Este artículo desafía la visión convencional de que los mínimos planos conducen inherentemente a una mejor generalización, mostrando que la reparametrización que preserva la función puede alterar drásticamente la nitidez percibida de un mínimo. Introduce la "debilidad" —una medida invariante a la reparametrización basada en lo que hace la red— como el verdadero motor de la generalización, demostrando su optimalidad minimax y correlación con los límites PAC-Bayes.

27
RESEARCHarXiv CS.LG·16/4/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Este artículo identifica la entropía espectral normalizada como un parámetro escalar para la transición de grokking, donde los modelos generalizan mucho después de la memorización. La investigación demuestra que el colapso de la entropía precede a la generalización y que las intervenciones causales confirman su papel crítico, proporcionando un modelo predictivo para el inicio del grokking.

27
RESEARCHarXiv CS.CL·17/4/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Esta investigación examina si los Grandes Modelos de Lenguaje (LLMs) pueden identificar fallas metodológicas, como la fuga de datos, en estudios de aprendizaje automático publicados. Un estudio de caso mostró que seis LLMs de vanguardia detectaron consistentemente fallas de evaluación en un artículo de reconocimiento de gestos debido a la partición de datos no independiente.

27
RESEARCHarXiv CS.CL·hace 20d

Pseudo-Siamese Network for Planning in Target-Oriented Proactive Dialogues

El artículo propone una Red Pseudo-Siamesa Bidireccional Enfocada hacia Adelante (FF-BPSN) para la planificación de rutas de diálogo en sistemas de diálogo proactivos orientados a objetivos. Esta red emplea decodificadores idénticos basados en transformadores para la planificación bidireccional e integra información para construir una ruta hacia adelante, guiando a los modelos de lenguaje en la generación de respuestas.

27