deep learning

263 items

RESEARCHDEV.to AI·hace 3d

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

Este trabajo presenta un método para la generación de subtítulos de imágenes, utilizando atención basada en regiones y factorización de escenas para mejorar la relevancia y precisión descriptiva. Su objetivo es alinear la percepción visual con la narración textual de manera más efectiva.

scene understanding deep learning computer vision attention mechanisms

ARTICLEDEV.to AI·hace 18d

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

El artículo "SilentRecon Deep Dive" explora la arquitectura Transformer, explicando cómo superó a las RNN y LSTMs al permitir el procesamiento paralelo y la atención. Esto resultó en escalabilidad, entrenamiento más rápido, comprensión contextual profunda e inferencia en tiempo real, convirtiéndolos en la capa de inteligencia predeterminada para la ciberseguridad y la automatización.

Transformer Architecture cybersecurity deep learning learning

RESEARCHarXiv CS.AI·hace 20d

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Este artículo presenta Learn-by-Wire Guard (LBW-Guard), una capa de gobernanza de control de entrenamiento autónomo para modelos de lenguaje. Su objetivo es mejorar la estabilidad y eficiencia del entrenamiento, reduciendo significativamente la perplejidad final.

language models deep learning AI training model stability

ARTICLEDEV.to AI·18/4/2026

Statistics after the loss of innocence: New rigor in the age of AI

Este artículo analiza la evolución de la estadística en la era de la IA, abogando por un cambio hacia sistemas híbridos y tratando la estadística como una disciplina de ingeniería. Destaca la importancia de salvaguardar los ensayos clínicos, una infraestructura computacional robusta y nuevas directrices regulatorias como ICH E20 para gestionar los riesgos.

regulatory compliance deep learning AI risk management

RESEARCHDEV.to AI·15/4/2026

Alzheimer's Disease Diagnostics by a Deeply Supervised Adaptable 3DConvolutional Network

Este contenido presenta una metodología para el diagnóstico de la Enfermedad de Alzheimer utilizando una Red Convolucional 3D profundamente supervisada y adaptable. La investigación explora el uso de aprendizaje profundo avanzado para mejorar la precisión en el diagnóstico médico por imagen.

deep learning Convolutional Neural Networks 3D CNN AI

ARTICLEDEV.to AI·hace 27d

Lambda — Deep Dive

Lambda es un proveedor especializado de infraestructura de IA centrado en la computación GPU y las herramientas de aprendizaje automático. A diferencia de los hiperescaladores generalistas, la misión de la empresa es permitir transiciones fluidas de prototipos a cargas de trabajo de producción masivas para su diversa base de clientes.

GPU compute deep learning cloud computing machine learning

RESEARCHarXiv CS.LG·28/4/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Este trabajo aborda la significativa huella de memoria del caché Key-Value (KV) en modelos de transformadores, proponiendo una optimización a través de la dimensión de profundidad. Introduce un método para el intercambio de caché entre capas, demostrando que eliminar el caché de una capa puede ser eficiente sin pérdida de información y sugiere un enfoque de entrenamiento con atención aleatoria entre capas.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·28/4/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Esta investigación sistemática sobre los espectros de valores singulares durante el preentrenamiento de transformadores revela tres fenómenos clave: ondas de compresión transitorias que se propagan por las capas y gradientes espectrales persistentes. También identifica una asimetría funcional Q/K-V, donde las proyecciones de consulta/clave impulsan la dinámica dependiente de la profundidad.

neural networks deep learning Model Analysis training dynamics

RESEARCHarXiv CS.LG·1/5/2026

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Este estudio revisa métodos de deep learning para la decodificación de EEG entre sujetos, abordando el desafío de la alta variabilidad inter-sujeto y el cambio de dominio. Clasifica la literatura actual en familias metodológicas como alineación de características y aprendizaje contrastivo, enfatizando la evaluación rigurosa y las limitaciones teóricas.

Generalization deep learning Biomedical AI EEG

RESEARCHarXiv CS.LG·hace 19d

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite es una nueva sonda a nivel de prompt diseñada para interpretar cómo se desarrolla la evidencia de seguridad a través de las capas en grandes modelos de lenguaje. Analiza la geometría de margen capa por capa utilizando diversas lecturas para comprender la formación de límites, mejorando la detección de seguridad sobre sondas de una sola capa.

deep learning Probing interpretability large language models

RESEARCHarXiv CS.LG·hace 17d

Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins

Esta investigación introduce GOEN, un nuevo método para la detección de entradas fuera de distribución (OOD), que combina características multiescala y la distancia de Mahalanobis. El estudio revela que CenterLoss, a pesar de mejorar la precisión de clasificación, degrada el rendimiento de la detección OOD, con GOEN-NoCenterLoss logrando resultados superiores.

OOD Detection Epistemic Uncertainty Feature Engineering deep learning

RESEARCHarXiv CS.LG·hace 20d

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Este artículo propone un marco escalable y adaptativo para mejorar la predicción espacio-temporal, armonizando las representaciones de características espaciales y temporales. Aborda los cuellos de botella de los métodos existentes mediante medidas de entropía espacial y temporal para la desalineación de la complejidad y la incertidumbre de la predicción.

model performance deep learning spatiotemporal prediction machine learning

RESEARCHarXiv CS.LG·hace 27d

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Este artículo propone -DPO, una optimización de preferencia directa a través del margen de recompensa de razón, para abordar el desafío del ajuste de hiperparámetros en SimPO. La investigación analiza SimPO y reformula el objetivo de preferencia para mejorar la interpretabilidad en conjuntos de datos con diferentes estructuras de brecha de recompensa.

Preference Optimization deep learning reinforcement learning Hyperparameter Tuning

RESEARCHarXiv CS.LG·hace 27d

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Este artículo presenta el modelo Convolutional Variational Deep Embedding (Conv-VaDE) para el análisis de microestados EEG. Mejora la interpretabilidad al aprender conjuntamente la reconstrucción topográfica y la agrupación probabilística suave, permitiendo la decodificación generativa de prototipos de clústeres en topografías verificables.

deep learning machine learning Neuroscience medical AI

RESEARCHarXiv CS.LG·hace 20d

Simply Stabilizing the Loop via Fully Looped Transformer

Los Transformers en Bucle ofrecen una forma de mejorar el rendimiento del modelo reutilizando bloques iterativamente sin aumentar el recuento de parámetros, pero sufren de inestabilidad en el entrenamiento con más iteraciones. Esta inestabilidad se atribuye a la oscilación de gradiente y la explosión residual, lo que llevó a la propuesta del Fully Looped Transformer, que introduce una Arquitectura Totalmente en Bucle y la Inyección de Atención.

neural networks AI architecture deep learning model training

DOCAWS Machine Learning Blog·hace 6d

Reducing container cold start times using SOCI index on DLAMI and DLC

Este artículo muestra cómo usar el índice SOCI en AMIs y contenedores de Deep Learning disponibles públicamente para reducir los tiempos de inicio en frío. Explora los diferentes modos de SOCI y cómo implementarlo de manera eficiente en sus cargas de trabajo.

Containers SOCI deep learning cloud computing

RESEARCHarXiv CS.LG·hace 5d

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant presenta un nuevo marco para el control continuo del ancho de bits en Modelos de Lenguaje Grandes, abordando las limitaciones de la cuantificación basada en enteros. Utiliza un mecanismo de "elevar y proyectar" para un ajuste casi continuo del ancho de bits para una implementación óptima.

Model Compression neural networks LLMs deep learning

DOCDEV.to AI·hace 4d

<think>

Este contenido detalla el servicio Global API, que ofrece acceso a 184 modelos de IA con precios competitivos, como DeepSeek V4 Flash a $0.25/M y GPT-4o. Destaca características como un SLA del 99.9%, 50 solicitudes gratuitas por minuto y créditos que nunca caducan, además de opciones de Canal Pro para necesidades avanzadas.

AI models deep learning cloud services API

RESEARCHDEV.to AI·10/4/2026

Deep Reinforcement Learning for Sepsis Treatment

Este conteúdo aborda a aplicação de Aprendizado por Reforço Profundo para o tratamento de sepse, uma condição médica grave. Ele explora como técnicas avançadas de IA podem otimizar decisões terapêuticas em ambientes clínicos complexos.

Medical Treatment deep learning reinforcement learning Sepsis

RESEARCHDEV.to AI·8/4/2026

An All-in-One Network for Dehazing and Beyond

Este conteúdo explora uma rede neural unificada projetada para remover neblina de imagens e potencialmente realizar outras tarefas de processamento de imagem. Aborda soluções avançadas em visão computacional e inteligência artificial.

Image processing deep learning computer vision Dehazing