← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·vor 7T

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer ist ein hybrider Multibranch-Transformer, der vorgeschlagen wird, um die Herausforderungen hoher Dimensionalität und komplexer raum-zeitlicher Muster in der verteilten akustischen Sensorik (DAS) zu überwinden. Er integriert kompakte statistische Merkmale aus mehreren Domänen, reduziert die Datengröße erheblich und verbessert die Ereignisklassifizierung.

28
RESEARCHarXiv CS.LG·vor 5T

Self-Distilled Policy Gradient

Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.

28
ARTICLEDEV.to AI·4/22/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) wird als die führende PEFT-Methode vorgestellt, die die effiziente Anpassung riesiger LLMs wie Llama 3 ohne umfangreiche Hardware-Ressourcen ermöglicht. Der Beitrag verspricht, die mathematische Intuition von LoRA, das Konzept der "intrinsischen Dimension" und seine transformative Bedeutung für KI-Ingenieure zu beleuchten.

27
ARTICLEDEV.to AI·5/1/2026

I Rebuilt Karpathy's NanoChat in JAX. Here's What XLA Gets Right and What It Gets Dead Wrong.

Dieser Inhalt beschreibt die Portierung von Andrej Karpathys NanoChat von PyTorch auf JAX/Flax NNX, wodurch schnelles Training auf einer einzelnen GPU und TPU-Kompatibilität erreicht wurde. Er erläutert die Vorteile von XLA bei der Eliminierung des Python-Overheads, hebt aber auch dessen Einschränkungen bei fortschrittlichen Funktionen und beim Debugging hervor.

27
RESEARCHarXiv CS.LG·4/13/2026

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations

Dieses Paper stellt den Soft Silhouette Loss vor, ein neuartiges differenzierbares Lernziel für Deep Learning, inspiriert vom klassischen Silhouettenkoeffizienten. Er zielt darauf ab, diskriminative Repräsentationen zu lernen, indem er intra-Klassen-Kompaktheit und inter-Klassen-Trennung effizienter als bestehende Metrik-Lernansätze durchsetzt.

27
RESEARCHarXiv CS.LG·4/20/2026

Lightweight Geometric Adaptation for Training Physics-Informed Neural Networks

Physik-Informierte Neuronale Netze (PINNs) leiden oft unter langsamer Konvergenz und Trainingsinstabilität aufgrund komplexer Verlustlandschaften. Es wird ein leichter, krümmungsbewusster Optimierungsrahmen vorgeschlagen, der bestehende First-Order-Optimierer verbessert, um Konvergenzgeschwindigkeit, Trainingsstabilität und Lösungsgenauigkeit bei partiellen Differentialgleichungen (PDEs) zu steigern.

27
RESEARCHarXiv CS.AI·4/25/2026

HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering

HypEHR ist ein kompaktes Lorentzsches Modell, das hyperbolische Geometrie für die Beantwortung von Fragen zu elektronischen Gesundheitsakten (EHR) nutzt und Kosten- sowie hierarchische Strukturprobleme LLM-basierter Methoden überwindet. Es wird für die Diagnosevorhersage und die Ausrichtung an medizinischen Ontologien vortrainiert und erreicht eine vergleichbare Leistung wie LLMs mit deutlich weniger Parametern.

27
RESEARCHarXiv CS.LG·4/9/2026

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Este artigo apresenta o AgriPriceBD, um novo conjunto de dados diário de preços de commodities agrícolas de Bangladesh, extraído com auxílio de LLM. Ele avalia sete abordagens de previsão, incluindo modelos clássicos e arquiteturas de deep learning, para estabilização da renda e segurança alimentar.

27
RESEARCHarXiv CS.LG·vor 26T

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI schlägt ein neues Framework zur Gewichtungsinitialisierung für Randomisierte Neuronale Netze (RdNNs) vor, das die Einschränkung konventioneller zufälliger Initialisierung, welche die Inter-Feature-Abhängigkeit ignoriert, beseitigt. Es verwendet eine datenangepasste Kopula, um sicherzustellen, dass die eingefrorenen Projektionen die empirische Abhängigkeit respektieren und so die Konditionierung sowie die Vorhersageleistung verbessern.

27
RESEARCHarXiv CS.LG·vor 28T

Geometry-free prediction of inertial lift forces in microfluidic devices using deep learning

Diese Arbeit stellt einen neuartigen Ansatz zur geometriefreien Vorhersage von Trägheitsauftriebskräften in mikrofluidischen Geräten mittels Deep Learning vor. Das trainierte neuronale Netzwerkmodell kann auf ungesehene Kanalgeometrien verallgemeinern und dabei eine vergleichbare Leistung zu bestehenden Modellen aufweisen.

27
RESEARCHarXiv CS.LG·vor 7T

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Diese Arbeit stellt Automatisch Differenzierbare Nichtlineare Tensornetzwerke (ADNTNs) vor, eine Familie strukturierter Gewichtegeneratoren zur exponentiellen Komprimierung von Tiefen Neuronalen Netzwerken. Der Ansatz erweitert die Niedrigrang-Anpassung und Tensorfaktorisierung, indem er große Gewichtstensoren durch eine Hierarchie kleiner Kerne und nichtlinearer Aktivierungen aufbaut.

27