← heapsort-ai

deep learning

263 items

ARTICLEDEV.to AI·hace 18d

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

El artículo "SilentRecon Deep Dive" explora la arquitectura Transformer, explicando cómo superó a las RNN y LSTMs al permitir el procesamiento paralelo y la atención. Esto resultó en escalabilidad, entrenamiento más rápido, comprensión contextual profunda e inferencia en tiempo real, convirtiéndolos en la capa de inteligencia predeterminada para la ciberseguridad y la automatización.

29
ARTICLEDEV.to AI·18/4/2026

Statistics after the loss of innocence: New rigor in the age of AI

Este artículo analiza la evolución de la estadística en la era de la IA, abogando por un cambio hacia sistemas híbridos y tratando la estadística como una disciplina de ingeniería. Destaca la importancia de salvaguardar los ensayos clínicos, una infraestructura computacional robusta y nuevas directrices regulatorias como ICH E20 para gestionar los riesgos.

29
ARTICLEDEV.to AI·hace 27d

Lambda — Deep Dive

Lambda es un proveedor especializado de infraestructura de IA centrado en la computación GPU y las herramientas de aprendizaje automático. A diferencia de los hiperescaladores generalistas, la misión de la empresa es permitir transiciones fluidas de prototipos a cargas de trabajo de producción masivas para su diversa base de clientes.

29
RESEARCHarXiv CS.LG·28/4/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Este trabajo aborda la significativa huella de memoria del caché Key-Value (KV) en modelos de transformadores, proponiendo una optimización a través de la dimensión de profundidad. Introduce un método para el intercambio de caché entre capas, demostrando que eliminar el caché de una capa puede ser eficiente sin pérdida de información y sugiere un enfoque de entrenamiento con atención aleatoria entre capas.

29
RESEARCHarXiv CS.LG·28/4/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Esta investigación sistemática sobre los espectros de valores singulares durante el preentrenamiento de transformadores revela tres fenómenos clave: ondas de compresión transitorias que se propagan por las capas y gradientes espectrales persistentes. También identifica una asimetría funcional Q/K-V, donde las proyecciones de consulta/clave impulsan la dinámica dependiente de la profundidad.

29
RESEARCHarXiv CS.LG·1/5/2026

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Este estudio revisa métodos de deep learning para la decodificación de EEG entre sujetos, abordando el desafío de la alta variabilidad inter-sujeto y el cambio de dominio. Clasifica la literatura actual en familias metodológicas como alineación de características y aprendizaje contrastivo, enfatizando la evaluación rigurosa y las limitaciones teóricas.

29
RESEARCHarXiv CS.LG·hace 19d

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite es una nueva sonda a nivel de prompt diseñada para interpretar cómo se desarrolla la evidencia de seguridad a través de las capas en grandes modelos de lenguaje. Analiza la geometría de margen capa por capa utilizando diversas lecturas para comprender la formación de límites, mejorando la detección de seguridad sobre sondas de una sola capa.

29
RESEARCHarXiv CS.LG·hace 17d

Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins

Esta investigación introduce GOEN, un nuevo método para la detección de entradas fuera de distribución (OOD), que combina características multiescala y la distancia de Mahalanobis. El estudio revela que CenterLoss, a pesar de mejorar la precisión de clasificación, degrada el rendimiento de la detección OOD, con GOEN-NoCenterLoss logrando resultados superiores.

29
RESEARCHarXiv CS.LG·hace 20d

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Este artículo propone un marco escalable y adaptativo para mejorar la predicción espacio-temporal, armonizando las representaciones de características espaciales y temporales. Aborda los cuellos de botella de los métodos existentes mediante medidas de entropía espacial y temporal para la desalineación de la complejidad y la incertidumbre de la predicción.

29
RESEARCHarXiv CS.LG·hace 27d

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Este artículo propone -DPO, una optimización de preferencia directa a través del margen de recompensa de razón, para abordar el desafío del ajuste de hiperparámetros en SimPO. La investigación analiza SimPO y reformula el objetivo de preferencia para mejorar la interpretabilidad en conjuntos de datos con diferentes estructuras de brecha de recompensa.

29
RESEARCHarXiv CS.LG·hace 27d

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Este artículo presenta el modelo Convolutional Variational Deep Embedding (Conv-VaDE) para el análisis de microestados EEG. Mejora la interpretabilidad al aprender conjuntamente la reconstrucción topográfica y la agrupación probabilística suave, permitiendo la decodificación generativa de prototipos de clústeres en topografías verificables.

29
RESEARCHarXiv CS.LG·hace 20d

Simply Stabilizing the Loop via Fully Looped Transformer

Los Transformers en Bucle ofrecen una forma de mejorar el rendimiento del modelo reutilizando bloques iterativamente sin aumentar el recuento de parámetros, pero sufren de inestabilidad en el entrenamiento con más iteraciones. Esta inestabilidad se atribuye a la oscilación de gradiente y la explosión residual, lo que llevó a la propuesta del Fully Looped Transformer, que introduce una Arquitectura Totalmente en Bucle y la Inyección de Atención.

29
DOCDEV.to AI·hace 4d

<think>

Este contenido detalla el servicio Global API, que ofrece acceso a 184 modelos de IA con precios competitivos, como DeepSeek V4 Flash a $0.25/M y GPT-4o. Destaca características como un SLA del 99.9%, 50 solicitudes gratuitas por minuto y créditos que nunca caducan, además de opciones de Canal Pro para necesidades avanzadas.

28