deep learning

263 items

RESEARCHarXiv CS.LG·hace 7d

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer es un Transformer híbrido multirrama propuesto para superar los desafíos de alta dimensionalidad y patrones complejos en la detección acústica distribuida (DAS). Integra características estadísticas compactas de múltiples dominios, reduciendo significativamente el tamaño de los datos y mejorando la clasificación de eventos.

deep learning machine learning pattern recognition distributed acoustic sensing

RESEARCHarXiv CS.LG·hace 5d

Self-Distilled Policy Gradient

Este artículo introduce el Self-Distilled Policy Gradient (SDPG), un marco novedoso que mejora el aprendizaje por refuerzo de recompensa dispersa mediante la autodestilación on-policy. SDPG integra ventajas de verificador relativas al grupo, autodestilación exacta de vocabulario completo y regularización KL, demostrando una estabilidad y rendimiento superiores a los métodos base.

language models deep learning reinforcement learning Policy Gradient

ARTICLEDEV.to AI·22/4/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) se presenta como el principal método PEFT, permitiendo la adaptación eficiente de LLM masivos como Llama 3 sin necesidad de muchos recursos de hardware. El artículo promete explorar la intuición matemática de LoRA, el concepto de "dimensión intrínseca" y su impacto revolucionario para los ingenieros de IA.

LLMs deep learning Fine-tuning PEFT

RESEARCHTogether AI Blog·15/4/2026

Parcae: Doing more with fewer parameters using stable looped models

Parcae es un modelo de lenguaje estable en bucle que iguala la calidad de Transformers del doble de su tamaño con menos parámetros. Presenta las primeras leyes de escalado para el bucle, demostrando que el aumento de la recurrencia es un camino eficiente en computación para un mejor rendimiento.

language models deep learning efficiency model optimization

ARTICLEDEV.to AI·11/4/2026

Deep Learning on FPGAs: Past, Present, and Future

Este contenido analiza la trayectoria del Deep Learning implementado en FPGAs, examinando su desarrollo pasado, el estado actual y las futuras direcciones. También subraya la importancia de la aceleración de hardware para el avance de la inteligencia artificial.

Hardware Acceleration FPGAs deep learning machine learning

ARTICLEDEV.to AI·1/5/2026

I Rebuilt Karpathy's NanoChat in JAX. Here's What XLA Gets Right and What It Gets Dead Wrong.

Este contenido describe la portabilidad de NanoChat de Andrej Karpathy de PyTorch a JAX/Flax NNX, logrando un entrenamiento rápido en una sola GPU y compatibilidad con TPU. Detalla las ventajas de XLA en la eliminación de la sobrecarga de Python, mientras resalta sus limitaciones con respecto a características avanzadas y depuración.

deep learning XLA JAX PyTorch

RESEARCHDEV.to AI·20/4/2026

Audio Spectrogram Representations for Processing with Convolutional NeuralNetworks

Este contenido explora las representaciones de espectrogramas de audio para su procesamiento con Redes Neuronales Convolucionales. Se centra en cómo estas representaciones visuales del sonido pueden ser utilizadas eficientemente por las CNNs para diversas tareas.

deep learning audio processing Convolutional Neural Networks spectrograms

ARTICLEDEV.to AI·25/4/2026

The hidden engine behind the AI Revolution: The Transformer

El verdadero motor detrás de la revolución de la IA no es ChatGPT, sino la arquitectura Transformer, introducida por el artículo "Attention Is All You Need". Esta innovación permitió el procesamiento masivo paralelo del lenguaje, utilizando GPUs y cambiando fundamentalmente cómo las máquinas entienden el lenguaje.

AI history deep learning Transformer NLP

RESEARCHDEV.to AI·2/5/2026

Accelerating CNN inference on FPGAs: A Survey

Este artículo de investigación revisa varias técnicas y métodos para acelerar la inferencia de Redes Neuronales Convolucionales (CNN) específicamente en FPGAs. Proporciona una visión general de la investigación existente y los enfoques arquitectónicos para mejorar el rendimiento y la eficiencia de las implementaciones de CNN en hardware.

Hardware Acceleration deep learning FPGA computer vision

RESEARCHDEV.to AI·hace 12d

Graph-MLP: Node Classification without Message Passing in Graph

Graph-MLP introduce un enfoque novedoso para la clasificación de nodos en redes neuronales gráficas, apartándose de los mecanismos tradicionales de paso de mensajes. Este método busca mejorar la eficiencia y el rendimiento clasificando los nodos directamente dentro de la estructura del grafo.

deep learning Graph Neural Networks machine learning Graph-MLP

RESEARCHDEV.to AI·26/4/2026

Squared Earth Mover's Distance-based Loss for Training Deep Neural Networks

Este contenido introduce una nueva función de pérdida para el entrenamiento de redes neuronales profundas, basada en la Distancia Cuadrada del Transportador de Tierra. Su propósito es mejorar la eficacia de los modelos de aprendizaje profundo al proporcionar una medida más robusta para comparar distribuciones de probabilidad.

neural networks deep learning machine learning loss functions

ARTICLEDEV.to AI·hace 6d

Gemma 4 12B: Google's Encoder-Free Multimodal AI

Gemma 4 12B es el modelo multimodal de código abierto y sin codificador de Google DeepMind, que procesa texto, imágenes y vídeo en una arquitectura unificada. Con 12 mil millones de parámetros, sobresale en los puntos de referencia y ofrece una huella eficiente para desarrolladores e investigadores.

multimodal AI deep learning Gemma 4 12B Google DeepMind

RESEARCHarXiv CS.LG·13/4/2026

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations

Este trabajo presenta la Soft Silhouette Loss, una nueva función de pérdida diferenciable para el aprendizaje profundo, inspirada en el coeficiente de silueta clásico. Su objetivo es aprender representaciones discriminativas que promuevan la compacidad intra-clase y la separación inter-clases de manera más eficiente que los métodos existentes.

Classification metric learning deep learning loss functions

RESEARCHDEV.to AI·6/5/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Este contenido explora técnicas avanzadas para optimizar el entrenamiento de redes neuronales, centrándose específicamente en el procesamiento de micro-lotes. Detalla la aplicación de normalización de canal de lote y estandarización de peso para mejorar el rendimiento y la estabilidad del modelo en escenarios con tamaños de lote pequeños.

neural networks batch-normalization Optimization deep learning

RESEARCHarXiv CS.LG·20/4/2026

Lightweight Geometric Adaptation for Training Physics-Informed Neural Networks

Las Redes Neuronales Informadas por la Física (PINNs) a menudo presentan convergencia lenta e inestabilidad debido a la geometría compleja de sus paisajes de pérdida. Se propone un marco de optimización ligero y consciente de la curvatura que mejora los optimizadores de primer orden para acelerar la convergencia, estabilizar el entrenamiento y aumentar la precisión en ecuaciones diferenciales parciales (PDEs).

Optimization deep learning Physics-Informed Neural Networks machine learning

RESEARCHarXiv CS.AI·25/4/2026

HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering

HypEHR es un modelo compacto que emplea geometría hiperbólica para la respuesta a preguntas sobre Registros Médicos Electrónicos (EHR), superando los desafíos de costo y estructura jerárquica de los métodos basados en LLM. Se preentrena para la predicción de diagnósticos y la alineación con ontologías médicas, logrando un rendimiento comparable al de los LLM con muchos menos parámetros.

Question Answering deep learning healthcare AI EHR

RESEARCHarXiv CS.LG·9/4/2026

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Este artigo apresenta o AgriPriceBD, um novo conjunto de dados diário de preços de commodities agrícolas de Bangladesh, extraído com auxílio de LLM. Ele avalia sete abordagens de previsão, incluindo modelos clássicos e arquiteturas de deep learning, para estabilização da renda e segurança alimentar.

previsão de preços agrícolas deep learning machine learning segurança alimentar

RESEARCHarXiv CS.LG·hace 26d

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI propone un nuevo marco de inicialización de pesos para Redes Neuronales Aleatorias (RdNNs) que aborda la limitación de la inicialización aleatoria convencional que ignora la dependencia entre características. Utiliza una cópula ajustada a los datos para asegurar que las proyecciones congeladas respeten la dependencia empírica, mejorando el acondicionamiento y el rendimiento predictivo.

neural networks deep learning machine learning data science

RESEARCHarXiv CS.LG·hace 28d

Geometry-free prediction of inertial lift forces in microfluidic devices using deep learning

Este trabajo desarrolla un enfoque novedoso para predecir fuerzas de elevación inerciales en dispositivos microfluídicos utilizando deep learning sin parámetros geométricos explícitos. El modelo de red neuronal entrenado puede generalizar a geometrías de canal no vistas, manteniendo un rendimiento comparable.

neural networks deep learning microfluidics inertial lift forces

RESEARCHarXiv CS.LG·hace 7d

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Este trabajo presenta las Redes Tensoriales No Lineales Diferenciables Automáticamente (ADNTNs), una familia de generadores de peso estructurados para la compresión exponencial de Redes Neuronales Profundas. El enfoque se ve como una extensión natural de la adaptación de bajo rango y la factorización tensorial, construyendo tensores de peso grandes a través de una jerarquía de pequeños núcleos y activaciones no lineales.

deep learning Automatic Differentiation machine learning Neural Network Compression