← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·hace 7d

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer es un Transformer híbrido multirrama propuesto para superar los desafíos de alta dimensionalidad y patrones complejos en la detección acústica distribuida (DAS). Integra características estadísticas compactas de múltiples dominios, reduciendo significativamente el tamaño de los datos y mejorando la clasificación de eventos.

28
RESEARCHarXiv CS.LG·hace 5d

Self-Distilled Policy Gradient

Este artículo introduce el Self-Distilled Policy Gradient (SDPG), un marco novedoso que mejora el aprendizaje por refuerzo de recompensa dispersa mediante la autodestilación on-policy. SDPG integra ventajas de verificador relativas al grupo, autodestilación exacta de vocabulario completo y regularización KL, demostrando una estabilidad y rendimiento superiores a los métodos base.

28
ARTICLEDEV.to AI·22/4/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) se presenta como el principal método PEFT, permitiendo la adaptación eficiente de LLM masivos como Llama 3 sin necesidad de muchos recursos de hardware. El artículo promete explorar la intuición matemática de LoRA, el concepto de "dimensión intrínseca" y su impacto revolucionario para los ingenieros de IA.

27
RESEARCHarXiv CS.LG·13/4/2026

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations

Este trabajo presenta la Soft Silhouette Loss, una nueva función de pérdida diferenciable para el aprendizaje profundo, inspirada en el coeficiente de silueta clásico. Su objetivo es aprender representaciones discriminativas que promuevan la compacidad intra-clase y la separación inter-clases de manera más eficiente que los métodos existentes.

27
RESEARCHDEV.to AI·6/5/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Este contenido explora técnicas avanzadas para optimizar el entrenamiento de redes neuronales, centrándose específicamente en el procesamiento de micro-lotes. Detalla la aplicación de normalización de canal de lote y estandarización de peso para mejorar el rendimiento y la estabilidad del modelo en escenarios con tamaños de lote pequeños.

27
RESEARCHarXiv CS.LG·20/4/2026

Lightweight Geometric Adaptation for Training Physics-Informed Neural Networks

Las Redes Neuronales Informadas por la Física (PINNs) a menudo presentan convergencia lenta e inestabilidad debido a la geometría compleja de sus paisajes de pérdida. Se propone un marco de optimización ligero y consciente de la curvatura que mejora los optimizadores de primer orden para acelerar la convergencia, estabilizar el entrenamiento y aumentar la precisión en ecuaciones diferenciales parciales (PDEs).

27
RESEARCHarXiv CS.AI·25/4/2026

HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering

HypEHR es un modelo compacto que emplea geometría hiperbólica para la respuesta a preguntas sobre Registros Médicos Electrónicos (EHR), superando los desafíos de costo y estructura jerárquica de los métodos basados en LLM. Se preentrena para la predicción de diagnósticos y la alineación con ontologías médicas, logrando un rendimiento comparable al de los LLM con muchos menos parámetros.

27
RESEARCHarXiv CS.LG·9/4/2026

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Este artigo apresenta o AgriPriceBD, um novo conjunto de dados diário de preços de commodities agrícolas de Bangladesh, extraído com auxílio de LLM. Ele avalia sete abordagens de previsão, incluindo modelos clássicos e arquiteturas de deep learning, para estabilização da renda e segurança alimentar.

27
RESEARCHarXiv CS.LG·hace 26d

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI propone un nuevo marco de inicialización de pesos para Redes Neuronales Aleatorias (RdNNs) que aborda la limitación de la inicialización aleatoria convencional que ignora la dependencia entre características. Utiliza una cópula ajustada a los datos para asegurar que las proyecciones congeladas respeten la dependencia empírica, mejorando el acondicionamiento y el rendimiento predictivo.

27
RESEARCHarXiv CS.LG·hace 7d

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Este trabajo presenta las Redes Tensoriales No Lineales Diferenciables Automáticamente (ADNTNs), una familia de generadores de peso estructurados para la compresión exponencial de Redes Neuronales Profundas. El enfoque se ve como una extensión natural de la adaptación de bajo rango y la factorización tensorial, construyendo tensores de peso grandes a través de una jerarquía de pequeños núcleos y activaciones no lineales.

27