deep learning

263 items

RESEARCHDEV.to AI·vor 3T

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

Diese Arbeit stellt eine Methode zur Bildunterschriftengenerierung vor, die regionenbasierte Aufmerksamkeit und Szenenfaktorisierung nutzt, um die beschreibende Relevanz und Genauigkeit zu verbessern. Ziel ist es, die visuelle Wahrnehmung effektiver mit der textlichen Erzählung abzugleichen.

scene understanding deep learning computer vision attention mechanisms

ARTICLEDEV.to AI·vor 18T

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

Der Artikel "SilentRecon Deep Dive" beleuchtet die Transformer-Architektur und erklärt, wie sie RNNs und LSTMs durch parallele Verarbeitung und Aufmerksamkeit übertraf. Dies führte zu Skalierbarkeit, schnellerem Training, tieferem Kontextverständnis und Echtzeit-Inferenz, wodurch sie zur Standard-Intelligenzschicht für Cybersicherheit und Automatisierung wurden.

Transformer Architecture cybersecurity deep learning learning

RESEARCHarXiv CS.AI·vor 20T

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Dieses Papier stellt Learn-by-Wire Guard (LBW-Guard) vor, eine autonome Trainingssteuerungs-Governance-Schicht für Sprachmodelle. Es zielt darauf ab, die Trainingsstabilität und -effizienz zu verbessern und die finale Perplexität erheblich zu reduzieren.

language models deep learning AI training model stability

ARTICLEDEV.to AI·4/18/2026

Statistics after the loss of innocence: New rigor in the age of AI

Dieser Artikel analysiert die Evolution der Statistik im Zeitalter der KI und plädiert für einen Übergang zu Hybridsystemen sowie die Betrachtung der Statistik als Ingenieurdisziplin. Er betont die Notwendigkeit des Schutzes klinischer Studien, robuster Berechnungsinfrastrukturen und neuer regulatorischer Leitlinien wie ICH E20 zur Risikobewältigung.

regulatory compliance deep learning AI risk management

RESEARCHDEV.to AI·4/15/2026

Alzheimer's Disease Diagnostics by a Deeply Supervised Adaptable 3DConvolutional Network

Dieser Inhalt präsentiert eine Methodik zur Diagnose von Alzheimer mithilfe eines tief überwachten und anpassbaren 3D-Faltungsnetzwerks. Die Forschung untersucht den Einsatz von fortgeschrittenem Deep Learning zur Verbesserung der Genauigkeit in der medizinischen Bilddiagnostik.

deep learning Convolutional Neural Networks 3D CNN AI

ARTICLEDEV.to AI·vor 27T

Lambda — Deep Dive

Lambda ist ein spezialisierter Anbieter von KI-Infrastruktur, der sich auf GPU-Computing und Machine-Learning-Tools konzentriert. Im Gegensatz zu allgemeinen Hyperscalern ist es die Mission des Unternehmens, nahtlose Übergänge von Prototypen zu massiven Produktions-Workloads für seine vielfältige Kundenbasis zu ermöglichen.

GPU compute deep learning cloud computing machine learning

RESEARCHarXiv CS.LG·4/28/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Diese Arbeit behandelt den erheblichen Speicherbedarf von Key-Value (KV)-Caching in Transformer-Sprachmodellen und schlägt eine Optimierung entlang der Tiefen-Dimension vor. Sie stellt eine Methode zum schichtübergreifenden Cache-Sharing vor, die zeigt, dass das Löschen des Caches einer Schicht effizient ohne Informationsverlust sein kann, und schlägt einen Trainingsansatz mit zufälliger schichtübergreifender Aufmerksamkeit vor.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·4/28/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Diese systematische Untersuchung der Singulärwertspektren während des Transformer-Vortrainings deckt drei Schlüsselphänomene auf: transiente Kompressionswellen und persistente spektrale Gradienten. Sie zeigt auch eine funktionale Q/K-V-Asymmetrie, bei der Query/Key-Projektionen die tiefenabhängige Dynamik steuern.

neural networks deep learning Model Analysis training dynamics

RESEARCHarXiv CS.LG·5/1/2026

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Diese Studie beleuchtet Deep-Learning-Methoden zur Subjekt-übergreifenden EEG-Dekodierung, die die Herausforderung hoher interindividueller Variabilität und Domänenverschiebung adressieren. Sie kategorisiert die Literatur in methodische Familien wie Feature-Alignment und kontrastives Lernen und betont rigorose Evaluierung und theoretische Überlegungen.

Generalization deep learning Biomedical AI EEG

RESEARCHarXiv CS.LG·vor 19T

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite ist eine neuartige Prompt-Level-Sonde, die entwickelt wurde, um zu interpretieren, wie sich Sicherheitsnachweise in den Schichten großer Sprachmodelle entwickeln. Sie analysiert die Geometrie der Layer-weisen Margen mithilfe verschiedener Ausleseverfahren, um die Grenzbildung zu verstehen und verbessert die Sicherheitserkennung gegenüber Single-Layer-Sonden.

deep learning Probing interpretability large language models

RESEARCHarXiv CS.LG·vor 17T

Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins

Diese Forschung stellt GOEN vor, eine neue Pipeline zur Erkennung von Out-of-Distribution (OOD)-Eingaben, die mehrskalige Merkmale und den Mahalanobis-Abstand kombiniert. Sie zeigt, dass CenterLoss die OOD-Erkennungsleistung überraschenderweise verschlechtert, wobei GOEN-NoCenterLoss hervorragende Ergebnisse erzielt.

OOD Detection Epistemic Uncertainty Feature Engineering deep learning

RESEARCHarXiv CS.LG·vor 20T

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Dieses Papier schlägt ein skalierbares, adaptives Framework zur Verbesserung der raumzeitlichen Vorhersage vor, indem es räumliche und zeitliche Merkmalsdarstellungen harmonisiert. Es behandelt Engpässe bestehender Methoden durch räumliche und zeitliche Entropiemaße, um Komplexitätsungleichheiten und Vorhersageunsicherheiten zu begegnen.

model performance deep learning spatiotemporal prediction machine learning

RESEARCHarXiv CS.LG·vor 27T

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Dieses Papier stellt -DPO vor, eine direkte Präferenzoptimierung mittels Verhältnis-Belohnungsmarge, um die Herausforderung der Hyperparameter-Abstimmung in SimPO anzugehen. Die Forschung analysiert SimPO und reformuliert das Präferenzziel, um die Interpretierbarkeit über Datensätze mit unterschiedlichen Belohnungslückenstrukturen zu verbessern.

Preference Optimization deep learning reinforcement learning Hyperparameter Tuning

RESEARCHarXiv CS.LG·vor 27T

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Dieses Papier stellt das Convolutional Variational Deep Embedding (Conv-VaDE) Modell für die EEG-Mikrostatusanalyse vor. Es verbessert die Interpretierbarkeit, indem es gemeinsam topografische Rekonstruktion und probabilistisches Soft-Clustering lernt, was eine generative Dekodierung von Cluster-Prototypen in verifizierbare Kopfhauttopografien ermöglicht.

deep learning machine learning Neuroscience medical AI

RESEARCHarXiv CS.LG·vor 20T

Simply Stabilizing the Loop via Fully Looped Transformer

Looped Transformer bieten eine Möglichkeit, die Modellleistung durch iterative Wiederverwendung von Blöcken ohne Erhöhung der Parameteranzahl zu verbessern, leiden jedoch unter Trainingsinstabilität bei höheren Schleifeniterationen. Diese Instabilität wird auf Gradientenoszillation und Restexplosion zurückgeführt, was zur Entwicklung des Fully Looped Transformer führte, der eine vollständig verschachtelte Architektur und Attention Injection einführt.

neural networks AI architecture deep learning model training

DOCAWS Machine Learning Blog·vor 6T

Reducing container cold start times using SOCI index on DLAMI and DLC

Dieser Beitrag zeigt, wie der SOCI-Index auf öffentlich verfügbaren Deep Learning AMIs und Containern verwendet werden kann, um Kaltstartzeiten zu reduzieren. Er behandelt die verschiedenen SOCI-Modi und gibt Anleitungen zur effizienten Implementierung dieses Tools in Arbeitslasten.

Containers SOCI deep learning cloud computing

RESEARCHarXiv CS.LG·vor 5T

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant ist ein neuartiges Framework zur kontinuierlichen Bitbreitensteuerung in großen Sprachmodellen, das die Einschränkungen der ganzzahlbasierten Quantisierung überwindet. Es verwendet einen "Lift-then-Project"-Mechanismus zur quasi-kontinuierlichen Bitbreitenanpassung für eine optimale Bereitstellung.

Model Compression neural networks LLMs deep learning

DOCDEV.to AI·vor 4T

<think>

Dieser Inhalt beschreibt den Global API-Dienst, der Zugang zu 184 KI-Modellen mit wettbewerbsfähigen Preisen bietet, wie DeepSeek V4 Flash für 0.25 $/M und GPT-4o. Er hebt Funktionen wie eine 99.9% SLA, 50 kostenlose Anfragen pro Minute und nie ablaufende Credits hervor, sowie Pro Channel-Optionen für fortgeschrittene Anforderungen.

AI models deep learning cloud services API

RESEARCHDEV.to AI·4/10/2026

Deep Reinforcement Learning for Sepsis Treatment

Este conteúdo aborda a aplicação de Aprendizado por Reforço Profundo para o tratamento de sepse, uma condição médica grave. Ele explora como técnicas avançadas de IA podem otimizar decisões terapêuticas em ambientes clínicos complexos.

Medical Treatment deep learning reinforcement learning Sepsis

RESEARCHDEV.to AI·4/8/2026

An All-in-One Network for Dehazing and Beyond

Este conteúdo explora uma rede neural unificada projetada para remover neblina de imagens e potencialmente realizar outras tarefas de processamento de imagem. Aborda soluções avançadas em visão computacional e inteligência artificial.

Image processing deep learning computer vision Dehazing