← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·hace 14d

Iterative Refinement Neural Operators are Learned Fixed-Point Solvers: A Principled Approach to Spectral Bias Mitigation

Este artículo presenta el Operador Neural de Refinamiento Iterativo (IRNO) para mitigar el sesgo espectral en operadores neuronales, utilizando un módulo de refinamiento aprendido con iteración de punto fijo. IRNO descompone las predicciones en una inicialización gruesa y correcciones residuales sucesivas, demostrando una reducción significativa de errores en sistemas físicos.

28
RESEARCHarXiv CS.AI·hace 4d

An interpretable and trustworthy AI framework for large-scale longitudinal structure-pain association studies using data from the Osteoarthritis Initiative (OAI)

Esta investigación desarrolla un marco de IA interpretable que combina la predicción de MOAKS de resonancia magnética basada en aprendizaje profundo con modelado estadístico para estudiar las relaciones estructura-dolor a gran escala utilizando datos de la OAI. Emplea aprendizaje profundo para predecir características de MOAKS a partir de resonancias magnéticas con cuantificación de incertidumbre, y un modelo mixto de clase latente longitudinal para examinar asociaciones entre anomalías estructurales y dolor de rodilla.

28
RESEARCHarXiv CS.LG·6/4/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
DOCDEV.to AI·17/4/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Este artículo explica por qué los valores de autoatención reemplazan las codificaciones posicionales originales, ya que integran información contextual de todas las palabras, aclarando relaciones. Luego introduce el apilamiento de múltiples capas de autoatención, cada una con pesos únicos, para capturar relaciones lingüísticas más complejas dentro de oraciones y párrafos.

28
RESEARCHDEV.to AI·7/5/2026

Stateless scheduler doubles LLM training speed

El ajuste fino de grandes modelos de lenguaje a menudo enfrenta cuellos de botella debido a la asignación rígida de GPU y el paralelismo de pipeline ineficiente. Un nuevo programador sin estado, RoundPipe, optimiza el entrenamiento al despachar dinámicamente las etapas de computación a través de un pool de GPUs, duplicando efectivamente la velocidad de entrenamiento de LLMs.

28
ARTICLEDEV.to AI·hace 27d

Comparing AI Approaches for Trade Promotion Strategies in Automotive

El texto destaca que la "promoción comercial con IA" engloba una gama de enfoques, desde sistemas basados en reglas hasta el aprendizaje profundo. Los fabricantes de automóviles deben evaluar estas metodologías en función de compensaciones como la precisión, la complejidad y la madurez de los datos, de forma similar a la elección de las configuraciones de sensores ADAS.

28
RESEARCHarXiv CS.LG·7/5/2026

Investigating Trustworthiness of Nonparametric Deep Survival Models for Alzheimer's Disease Progression Analysis

Esta investigación explora la fiabilidad y la equidad de los modelos de supervivencia profunda no paramétricos para analizar la progresión de la Enfermedad de Alzheimer (EA). Aborda la falta de estudios que consideren el sesgo aprendido en los modelos de aprendizaje profundo existentes para la EA y propone nuevas métricas de equidad para garantizar predicciones confiables.

28
RESEARCHarXiv CS.LG·hace 6d

Graph Mamba Survival Analysis Based on Topology-Aware ordering

Este artículo aborda desafíos en el análisis de supervivencia de Imágenes de Diapositivas Completas (WSIs), específicamente el cuello de botella computacional de los Transformers y la sensibilidad de Mamba al orden de entrada y su arquitectura unidireccional. Propone un nuevo enfoque para superar las limitaciones de Mamba en la captura de conectividad topológica y estructuras espaciales bidireccionales.

28
RESEARCHarXiv CS.LG·17/4/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

Los modelos Mixture-of-Experts (MoE) son propensos a alucinaciones, particularmente con conocimiento de cola larga, debido a que el enrutamiento Top-k estático subprioriza a los expertos especialistas. Se propone el Enrutamiento Contrafactual (CoR), un marco de inferencia sin entrenamiento que utiliza análisis de perturbación y CEI para desplazar dinámicamente los recursos computacionales, despertando así a estos expertos inactivos.

28
RESEARCHarXiv CS.LG·hace 15d

Reading Calibrated Uncertainty from Language Model Trajectories

Este artículo de investigación propone un nuevo método para cuantificar la incertidumbre en modelos de lenguaje, rastreando la trayectoria acumulativa de las actualizaciones MLP por capa. Al extraer once características geométricas invariantes a escala, una sonda lineal esparsa supera la probabilidad máxima de softmax en la evaluación de la incertidumbre.

28