← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·vor 14T

Iterative Refinement Neural Operators are Learned Fixed-Point Solvers: A Principled Approach to Spectral Bias Mitigation

Dieses Papier stellt den Iterativen Verfeinerungs-Neuraloperator (IRNO) vor, um spektrale Verzerrungen in neuronalen Operatoren zu mildern, indem es ein gelerntes Verfeinerungsmodul mittels Fixpunktiteration verwendet. IRNO zerlegt Vorhersagen in eine grobe Initialisierung und aufeinanderfolgende Restkorrekturen und erreicht eine signifikante Fehlerreduzierung in physikalischen Systemen.

28
RESEARCHarXiv CS.AI·vor 4T

An interpretable and trustworthy AI framework for large-scale longitudinal structure-pain association studies using data from the Osteoarthritis Initiative (OAI)

Diese Forschung entwickelt einen interpretierbaren KI-Rahmen, der auf tiefem Lernen basierende MRI Osteoarthritis Knee Score (MOAKS)-Vorhersage mit interpretierbarer statistischer Modellierung kombiniert, um Struktur-Schmerz-Beziehungen im großen Maßstab unter Verwendung von OAI-Daten zu untersuchen. Sie nutzt tiefes Lernen für die MOAKS-Merkmalsvorhersage aus MRTs mit Unsicherheitsquantifizierung und anschließend ein longitudinales latentes Klassen-Mischmodell zur Untersuchung von Assoziationen zwischen strukturellen Anomalien und Knieschmerzen.

28
RESEARCHarXiv CS.LG·4/6/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
DOCDEV.to AI·4/17/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Dieser Artikel erklärt, warum Selbstaufmerksamkeitswerte die ursprünglichen Positional Encodings ersetzen, da sie kontextuelle Informationen aller Wörter integrieren und Beziehungen verdeutlichen. Anschließend wird das Stapeln mehrerer Selbstaufmerksamkeitsschichten, jeweils mit einzigartigen Gewichten, vorgestellt, um komplexere sprachliche Beziehungen innerhalb von Sätzen und Absätzen zu erfassen.

28
RESEARCHarXiv CS.LG·5/7/2026

Investigating Trustworthiness of Nonparametric Deep Survival Models for Alzheimer's Disease Progression Analysis

Diese Forschung untersucht die Vertrauenswürdigkeit und Fairness nichtparametrischer tiefer Überlebensmodelle zur Analyse des Fortschreitens der Alzheimer-Krankheit (AD). Sie befasst sich mit dem Mangel an Studien, die gelernte Verzerrungen in bestehenden Deep-Learning-Modellen für AD berücksichtigen, und schlägt neue Fairness-Metriken vor, um zuverlässige Vorhersagen zu gewährleisten.

28
RESEARCHarXiv CS.LG·vor 6T

Graph Mamba Survival Analysis Based on Topology-Aware ordering

Dieses Papier behandelt Herausforderungen in der Überlebensanalyse von Whole Slide Images (WSIs), insbesondere den Rechenengpass von Transformatoren und Mambas Empfindlichkeit gegenüber der Eingabereihenfolge sowie seiner unidirektionalen Architektur. Es schlägt einen neuen Ansatz vor, um Mambas Einschränkungen bei der Erfassung topologischer Konnektivität und bidirektionaler räumlicher Strukturen zu überwinden.

28
RESEARCHarXiv CS.LG·4/17/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

MoE-Modelle neigen zu Halluzinationen, insbesondere bei Long-Tail-Wissen, da statisches Top-k-Routing Spezialistenexperten unterpriorisiert. Counterfactual Routing (CoR) wird als trainingsfreies Inferenz-Framework vorgeschlagen, das mittels Störungsanalyse und CEI Rechenressourcen dynamisch verschiebt und so schlafende Experten aktiviert.

28
RESEARCHarXiv CS.LG·vor 15T

Reading Calibrated Uncertainty from Language Model Trajectories

Diese Forschungsarbeit schlägt eine neue Methode zur Quantifizierung der Unsicherheit in Sprachmodellen vor, indem sie den kumulativen Pfad von MLP-Updates pro Schicht verfolgt. Durch die Extraktion von elf skaleninvarianten geometrischen Merkmalen übertrifft eine dünne lineare Sonde die maximale Softmax-Wahrscheinlichkeit bei der Bewertung der Unsicherheit.

28