deep learning

263 items

RESEARCHDEV.to AI·5/6/2026

RAVE: A variational autoencoder for fast and high-quality neural audio synthesis

RAVE stellt einen neuartigen variationalen Autoencoder vor, der für schnelle und hochwertige neuronale Audiosynthese entwickelt wurde. Dieses Modell verbessert erheblich die Effizienz und Wiedergabetreue bei der Generierung von Audioinhalten mittels Deep-Learning-Techniken.

deep learning audio synthesis neural audio Variational Autoencoder

RESEARCHDEV.to AI·vor 21T

Ensemble of Deep Convolutional Neural Networks for Learning to Detect RetinalVessels in Fundus Images

Dieses Forschungspapier schlägt eine Methode zur Erkennung von Netzhautgefäßen in Fundusbildern mittels eines Ensembles von Tiefen Faltungs-Neuronalen Netzen vor. Ziel des Ansatzes ist es, die Diagnosegenauigkeit durch fortschrittliche Bildanalyse zu verbessern.

ensemble methods deep learning Convolutional Neural Networks Medical Imaging

RESEARCHDEV.to AI·4/20/2026

Stable Video Infinity: Generating Infinite-Length Videos with Error Recycling

Stable Video Infinity stellt eine neuartige Lösung zur Generierung von Videos unendlicher Länge vor, die das Problem akkumulierter Fehler überwindet. Ihre Kerninnovation ist ein ausgeklügelter Fehlerrecycling-Mechanismus, der eine visuelle Verschlechterung im Laufe der Zeit verhindert.

deep learning machine learning AI video generation

ARTICLEDEV.to AI·vor 28T

Multi-Head Attention: Collaborate Instead of Concatenate

Dieser Inhalt untersucht den Multi-Head-Aufmerksamkeitsmechanismus in KI-Modellen und konzentriert sich auf die Idee der Zusammenarbeit anstelle der Verkettung. Er diskutiert wahrscheinlich einen alternativen Ansatz zur Verbesserung der Effizienz oder Leistung der Aufmerksamkeit.

deep learning Attention Mechanism machine learning AI

RESEARCHarXiv CS.LG·vor 14T

Iterative Refinement Neural Operators are Learned Fixed-Point Solvers: A Principled Approach to Spectral Bias Mitigation

Dieses Papier stellt den Iterativen Verfeinerungs-Neuraloperator (IRNO) vor, um spektrale Verzerrungen in neuronalen Operatoren zu mildern, indem es ein gelerntes Verfeinerungsmodul mittels Fixpunktiteration verwendet. IRNO zerlegt Vorhersagen in eine grobe Initialisierung und aufeinanderfolgende Restkorrekturen und erreicht eine signifikante Fehlerreduzierung in physikalischen Systemen.

deep learning Neural Operators Scientific Computing Iterative Methods

RESEARCHarXiv CS.AI·vor 4T

An interpretable and trustworthy AI framework for large-scale longitudinal structure-pain association studies using data from the Osteoarthritis Initiative (OAI)

Diese Forschung entwickelt einen interpretierbaren KI-Rahmen, der auf tiefem Lernen basierende MRI Osteoarthritis Knee Score (MOAKS)-Vorhersage mit interpretierbarer statistischer Modellierung kombiniert, um Struktur-Schmerz-Beziehungen im großen Maßstab unter Verwendung von OAI-Daten zu untersuchen. Sie nutzt tiefes Lernen für die MOAKS-Merkmalsvorhersage aus MRTs mit Unsicherheitsquantifizierung und anschließend ein longitudinales latentes Klassen-Mischmodell zur Untersuchung von Assoziationen zwischen strukturellen Anomalien und Knieschmerzen.

deep learning Healthcare Osteoarthritis AI

RESEARCHarXiv CS.CL·vor 4T

Multi-Granularity Reasoning for Natural Language Inference

Die Arbeit schlägt ein neuartiges Multi-Granularitäts-Reasoning-Netzwerk (MGRN) für Natural Language Inference (NLI) vor. Es adressiert die Einschränkungen bestehender Transformer-basierter Modelle, indem es hierarchische semantische Merkmale nutzt, um komplexe Interaktionen für effektives Reasoning zu erfassen.

deep learning Natural Language Inference machine learning Natural Language Processing

RESEARCHarXiv CS.LG·4/6/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

Optimization deep learning reinforcement learning Text-to-Image Generation

DOCDEV.to AI·4/17/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Dieser Artikel erklärt, warum Selbstaufmerksamkeitswerte die ursprünglichen Positional Encodings ersetzen, da sie kontextuelle Informationen aller Wörter integrieren und Beziehungen verdeutlichen. Anschließend wird das Stapeln mehrerer Selbstaufmerksamkeitsschichten, jeweils mit einzigartigen Gewichten, vorgestellt, um komplexere sprachliche Beziehungen innerhalb von Sätzen und Absätzen zu erfassen.

neural networks Self-Attention deep learning NLP

RESEARCHDEV.to AI·4/19/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM führt einen neuartigen Ansatz für die Open-Vocabulary-Objekterkennung ein, indem es effizient eingefrorene vortrainierte Visions- und Sprachmodelle nutzt. Diese Methode ermöglicht die Identifizierung einer Vielzahl von Objekten, ohne spezifische Trainingsdaten für jede neue Kategorie zu benötigen.

Vision-Language Models deep learning object detection computer vision

RESEARCHDEV.to AI·5/2/2026

Deep convolutional recurrent autoencoders for learning low-dimensional featuredynamics of fluid systems

Dieser Inhalt behandelt die Anwendung tiefer konvolutioneller rekurenter Autoencoder zum Erlernen der niedrigdimensionalen Merkmalsdynamik von Fluidsystemen.

Dimensionality Reduction fluid dynamics deep learning autoencoders

RESEARCHDEV.to AI·5/7/2026

Stateless scheduler doubles LLM training speed

Das Feinabstimmen großer Sprachmodelle wird oft durch starre GPU-Zuweisung und ineffizienten Pipeline-Parallelismus gebremst. Ein neuer zustandsloser Scheduler, RoundPipe, optimiert das Training, indem er Rechenphasen dynamisch über einen Pool von GPUs verteilt und so die LLM-Trainingsgeschwindigkeit effektiv verdoppelt.

deep learning machine learning GPU optimization Parallelism

ARTICLEDEV.to AI·vor 27T

Comparing AI Approaches for Trade Promotion Strategies in Automotive

Der Text weist darauf hin, dass "KI-Handelsförderung" eine Reihe von Ansätzen umfasst, von regelbasierten Systemen bis hin zu Deep Learning. Automobilhersteller müssen diese Methoden anhand von Kompromissen wie Genauigkeit, Komplexität und Datenreife bewerten, ähnlich der Wahl von ADAS-Sensorkonfigurationen.

deep learning automotive machine learning AI

RESEARCHarXiv CS.LG·5/7/2026

Investigating Trustworthiness of Nonparametric Deep Survival Models for Alzheimer's Disease Progression Analysis

Diese Forschung untersucht die Vertrauenswürdigkeit und Fairness nichtparametrischer tiefer Überlebensmodelle zur Analyse des Fortschreitens der Alzheimer-Krankheit (AD). Sie befasst sich mit dem Mangel an Studien, die gelernte Verzerrungen in bestehenden Deep-Learning-Modellen für AD berücksichtigen, und schlägt neue Fairness-Metriken vor, um zuverlässige Vorhersagen zu gewährleisten.

deep learning Alzheimer's disease survival analysis medical AI

RESEARCHarXiv CS.LG·vor 6T

Graph Mamba Survival Analysis Based on Topology-Aware ordering

Dieses Papier behandelt Herausforderungen in der Überlebensanalyse von Whole Slide Images (WSIs), insbesondere den Rechenengpass von Transformatoren und Mambas Empfindlichkeit gegenüber der Eingabereihenfolge sowie seiner unidirektionalen Architektur. Es schlägt einen neuen Ansatz vor, um Mambas Einschränkungen bei der Erfassung topologischer Konnektivität und bidirektionaler räumlicher Strukturen zu überwinden.

deep learning survival analysis sequence models computational pathology

RESEARCHDEV.to AI·5/9/2026

DeXpression: Deep Convolutional Neural Network for Expression Recognition

DeXpression ist ein tiefes Convolutional Neural Network-Modell, das für die präzise Erkennung von Gesichtsausdrücken entwickelt wurde. Es zielt darauf ab, die Fähigkeit von Computer-Vision-Systemen zu verbessern, menschliche Emotionen aus Bildern zu interpretieren.

facial expression recognition deep learning computer vision Convolutional Neural Networks

RESEARCHarXiv CS.CL·4/10/2026

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Este artigo apresenta um sistema de Reconhecimento de Emoção da Fala (SER) em árabe, baseado em uma arquitetura híbrida CNN-Transformer. O modelo combina camadas convolucionais para extração de características espectrais e codificadores Transformer para capturar dependências temporais, alcançando 97,8% de precisão e 0,98 de F1-score macro.

CNN deep learning Transformer machine learning

RESEARCHDEV.to AI·vor 13T

MimicMotion: High-Quality Human Motion Video Generation with Confidence-awarePose Guidance

MimicMotion ist ein Forschungsprojekt zur hochwertigen Generierung menschlicher Bewegungsvideos. Diese Methode nutzt vertrauensbewusste Posenführung, um die visuellen Ergebnisse zu verbessern.

deep learning pose guidance AI video generation

RESEARCHarXiv CS.LG·4/17/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

MoE-Modelle neigen zu Halluzinationen, insbesondere bei Long-Tail-Wissen, da statisches Top-k-Routing Spezialistenexperten unterpriorisiert. Counterfactual Routing (CoR) wird als trainingsfreies Inferenz-Framework vorgeschlagen, das mittels Störungsanalyse und CEI Rechenressourcen dynamisch verschiebt und so schlafende Experten aktiviert.

neural networks AI hallucinations deep learning Mixture of Experts

RESEARCHarXiv CS.LG·vor 15T

Reading Calibrated Uncertainty from Language Model Trajectories

Diese Forschungsarbeit schlägt eine neue Methode zur Quantifizierung der Unsicherheit in Sprachmodellen vor, indem sie den kumulativen Pfad von MLP-Updates pro Schicht verfolgt. Durch die Extraktion von elf skaleninvarianten geometrischen Merkmalen übertrifft eine dünne lineare Sonde die maximale Softmax-Wahrscheinlichkeit bei der Bewertung der Unsicherheit.

language models deep learning Uncertainty Quantification model calibration