deep learning

263 items

RESEARCHarXiv CS.LG·vor 7T

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer ist ein hybrider Multibranch-Transformer, der vorgeschlagen wird, um die Herausforderungen hoher Dimensionalität und komplexer raum-zeitlicher Muster in der verteilten akustischen Sensorik (DAS) zu überwinden. Er integriert kompakte statistische Merkmale aus mehreren Domänen, reduziert die Datengröße erheblich und verbessert die Ereignisklassifizierung.

deep learning machine learning pattern recognition distributed acoustic sensing

RESEARCHarXiv CS.LG·vor 5T

Self-Distilled Policy Gradient

Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.

language models deep learning reinforcement learning Policy Gradient

ARTICLEDEV.to AI·4/22/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) wird als die führende PEFT-Methode vorgestellt, die die effiziente Anpassung riesiger LLMs wie Llama 3 ohne umfangreiche Hardware-Ressourcen ermöglicht. Der Beitrag verspricht, die mathematische Intuition von LoRA, das Konzept der "intrinsischen Dimension" und seine transformative Bedeutung für KI-Ingenieure zu beleuchten.

LLMs deep learning Fine-tuning PEFT

RESEARCHTogether AI Blog·4/15/2026

Parcae: Doing more with fewer parameters using stable looped models

Parcae ist ein stabiles, geschleiftes Sprachmodell, das die Qualität eines doppelt so großen Transformers mit weniger Parametern erreicht. Es führt die ersten Skalierungsgesetze für Schleifenmodelle ein und zeigt, dass die Erhöhung der Rekurrenz ein recheneffizienter Weg zu besserer Leistung ist.

language models deep learning efficiency model optimization

ARTICLEDEV.to AI·4/11/2026

Deep Learning on FPGAs: Past, Present, and Future

Dieser Artikel beleuchtet die Entwicklung der Deep-Learning-Implementierung auf FPGAs, einschließlich ihrer historischen Entwicklung, ihres aktuellen Zustands und zukünftiger Richtungen. Er unterstreicht zudem die entscheidende Bedeutung der Hardwarebeschleunigung für den Fortschritt der künstlichen Intelligenz.

Hardware Acceleration FPGAs deep learning machine learning

ARTICLEDEV.to AI·5/1/2026

I Rebuilt Karpathy's NanoChat in JAX. Here's What XLA Gets Right and What It Gets Dead Wrong.

Dieser Inhalt beschreibt die Portierung von Andrej Karpathys NanoChat von PyTorch auf JAX/Flax NNX, wodurch schnelles Training auf einer einzelnen GPU und TPU-Kompatibilität erreicht wurde. Er erläutert die Vorteile von XLA bei der Eliminierung des Python-Overheads, hebt aber auch dessen Einschränkungen bei fortschrittlichen Funktionen und beim Debugging hervor.

deep learning XLA JAX PyTorch

RESEARCHDEV.to AI·4/20/2026

Audio Spectrogram Representations for Processing with Convolutional NeuralNetworks

Dieser Inhalt untersucht Audiospektrogramm-Darstellungen für die Verarbeitung mit Convolutional Neural Networks. Er konzentriert sich darauf, wie diese visuellen Klangrepräsentationen effizient von CNNs für verschiedene Aufgaben genutzt werden können.

deep learning audio processing Convolutional Neural Networks spectrograms

ARTICLEDEV.to AI·4/25/2026

The hidden engine behind the AI Revolution: The Transformer

Der wahre Motor hinter der KI-Revolution ist nicht ChatGPT, sondern die Transformer-Architektur, eingeführt durch das Paper „Attention Is All You Need“. Diese Innovation ermöglichte massive parallele Sprachverarbeitung, nutzte GPUs und veränderte grundlegend, wie Maschinen Sprache verstehen.

AI history deep learning Transformer NLP

RESEARCHDEV.to AI·5/2/2026

Accelerating CNN inference on FPGAs: A Survey

Diese Übersichtsstudie untersucht verschiedene Techniken und Methoden zur Beschleunigung der Inferenz von Convolutional Neural Networks (CNNs) speziell auf FPGAs. Sie bietet einen Überblick über bestehende Forschung und architektonische Ansätze zur Verbesserung der Leistung und Effizienz von CNN-Implementierungen auf Hardware.

Hardware Acceleration deep learning FPGA computer vision

RESEARCHDEV.to AI·vor 12T

Graph-MLP: Node Classification without Message Passing in Graph

Graph-MLP stellt einen neuartigen Ansatz zur Knotenklassifizierung in Graphen-neuronalen Netzen vor, der von traditionellen Nachrichtenübertragungsmechanismen abweicht. Diese Methode zielt darauf ab, die Effizienz und Leistung zu verbessern, indem Knoten direkt innerhalb der Graphenstruktur klassifiziert werden.

deep learning Graph Neural Networks machine learning Graph-MLP

RESEARCHDEV.to AI·4/26/2026

Squared Earth Mover's Distance-based Loss for Training Deep Neural Networks

Dieser Inhalt stellt eine neuartige Verlustfunktion für das Training tiefer neuronaler Netze vor, die auf der quadrierten Erdverschieber-Distanz basiert. Ziel ist es, die Effektivität von Deep-Learning-Modellen durch ein robusteres Maß zum Vergleich von Wahrscheinlichkeitsverteilungen zu verbessern.

neural networks deep learning machine learning loss functions

ARTICLEDEV.to AI·vor 6T

Gemma 4 12B: Google's Encoder-Free Multimodal AI

Gemma 4 12B ist Googles DeepMinds offenes, encoder-freies multimodales Modell, das Text, Bilder und Video in einer einzigen, vereinheitlichten Architektur verarbeitet. Mit 12 Milliarden Parametern übertrifft es Benchmarks und bietet eine effiziente Lösung für Entwickler und Forscher.

multimodal AI deep learning Gemma 4 12B Google DeepMind

RESEARCHarXiv CS.LG·4/13/2026

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations

Dieses Paper stellt den Soft Silhouette Loss vor, ein neuartiges differenzierbares Lernziel für Deep Learning, inspiriert vom klassischen Silhouettenkoeffizienten. Er zielt darauf ab, diskriminative Repräsentationen zu lernen, indem er intra-Klassen-Kompaktheit und inter-Klassen-Trennung effizienter als bestehende Metrik-Lernansätze durchsetzt.

Classification metric learning deep learning loss functions

RESEARCHDEV.to AI·5/6/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Dieser Inhalt untersucht fortgeschrittene Techniken zur Optimierung des neuronalen Netzwerktrainings, insbesondere im Hinblick auf die Mikro-Batch-Verarbeitung. Er beschreibt die Anwendung von Batch-Kanal-Normalisierung und Gewichtungsstandardisierung zur Verbesserung der Modellleistung und -stabilität bei kleinen Batch-Größen.

neural networks batch-normalization Optimization deep learning

RESEARCHarXiv CS.LG·4/20/2026

Lightweight Geometric Adaptation for Training Physics-Informed Neural Networks

Physik-Informierte Neuronale Netze (PINNs) leiden oft unter langsamer Konvergenz und Trainingsinstabilität aufgrund komplexer Verlustlandschaften. Es wird ein leichter, krümmungsbewusster Optimierungsrahmen vorgeschlagen, der bestehende First-Order-Optimierer verbessert, um Konvergenzgeschwindigkeit, Trainingsstabilität und Lösungsgenauigkeit bei partiellen Differentialgleichungen (PDEs) zu steigern.

Optimization deep learning Physics-Informed Neural Networks machine learning

RESEARCHarXiv CS.AI·4/25/2026

HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering

HypEHR ist ein kompaktes Lorentzsches Modell, das hyperbolische Geometrie für die Beantwortung von Fragen zu elektronischen Gesundheitsakten (EHR) nutzt und Kosten- sowie hierarchische Strukturprobleme LLM-basierter Methoden überwindet. Es wird für die Diagnosevorhersage und die Ausrichtung an medizinischen Ontologien vortrainiert und erreicht eine vergleichbare Leistung wie LLMs mit deutlich weniger Parametern.

Question Answering deep learning healthcare AI EHR

RESEARCHarXiv CS.LG·4/9/2026

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Este artigo apresenta o AgriPriceBD, um novo conjunto de dados diário de preços de commodities agrícolas de Bangladesh, extraído com auxílio de LLM. Ele avalia sete abordagens de previsão, incluindo modelos clássicos e arquiteturas de deep learning, para estabilização da renda e segurança alimentar.

previsão de preços agrícolas deep learning machine learning segurança alimentar

RESEARCHarXiv CS.LG·vor 26T

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI schlägt ein neues Framework zur Gewichtungsinitialisierung für Randomisierte Neuronale Netze (RdNNs) vor, das die Einschränkung konventioneller zufälliger Initialisierung, welche die Inter-Feature-Abhängigkeit ignoriert, beseitigt. Es verwendet eine datenangepasste Kopula, um sicherzustellen, dass die eingefrorenen Projektionen die empirische Abhängigkeit respektieren und so die Konditionierung sowie die Vorhersageleistung verbessern.

neural networks deep learning machine learning data science

RESEARCHarXiv CS.LG·vor 28T

Geometry-free prediction of inertial lift forces in microfluidic devices using deep learning

Diese Arbeit stellt einen neuartigen Ansatz zur geometriefreien Vorhersage von Trägheitsauftriebskräften in mikrofluidischen Geräten mittels Deep Learning vor. Das trainierte neuronale Netzwerkmodell kann auf ungesehene Kanalgeometrien verallgemeinern und dabei eine vergleichbare Leistung zu bestehenden Modellen aufweisen.

neural networks deep learning microfluidics inertial lift forces

RESEARCHarXiv CS.LG·vor 7T

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Diese Arbeit stellt Automatisch Differenzierbare Nichtlineare Tensornetzwerke (ADNTNs) vor, eine Familie strukturierter Gewichtegeneratoren zur exponentiellen Komprimierung von Tiefen Neuronalen Netzwerken. Der Ansatz erweitert die Niedrigrang-Anpassung und Tensorfaktorisierung, indem er große Gewichtstensoren durch eine Hierarchie kleiner Kerne und nichtlinearer Aktivierungen aufbaut.

deep learning Automatic Differentiation machine learning Neural Network Compression