deep learning

263 items

RESEARCHarXiv CS.LG·vor 12T

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Dieser Artikel untersucht die mechanistischen Ursprünge des katastrophalen Vergessens in großen Sprachmodellen (LLMs) durch den Vergleich von Reinforcement Learning (RL) mit Supervised Fine-Tuning (SFT). Er zeigt, dass RL interne Rechenschaltkreise effektiver erhält und das Vergessen früherer Fähigkeiten im Gegensatz zu SFT, das größere Schaltkreisstörungen verursacht, mildert.

LLMs deep learning machine learning Catastrophic Forgetting

RESEARCHarXiv CS.CL·vor 7T

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Forscher haben herausgefunden, dass die Leistung von Sprachmodellen erheblich verbessert werden kann, wenn tiefere Schichten kontextfreie Wertvektoren lernen, die die ursprünglichen Token-Informationen bewahren. Dies macht eine Neuberechnung oder persistente Speicherung dieser Werte überflüssig, da die kontextabhängige Komponente nur geringen zusätzlichen Nutzen bietet.

neural networks LLMs deep learning Attention Mechanism

RESEARCHarXiv CS.LG·vor 9T

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Diese Studie stellt Gait2Hip-60 vor, ein Deep-Learning-Framework zur direkten Vorhersage von Hüftmuskelkräften und Gelenkmomenten aus der Ganganalyse bei mehreren Kadenzen. Es vergleicht LSTM-, Transformer- und Mamba-Modelle und bewertet deren Leistung bei gesunden Erwachsenen sowie bei einer externen Kohorte von Patienten.

biomechanics deep learning gait analysis musculoskeletal simulation

RESEARCHarXiv CS.AI·vor 7T

Evaluating Transformer and LSTM Frameworks for Prediction in Ungauged Basins

Diese Studie bewertet Transformer- und LSTM-Frameworks für die Abflussvorhersage in ungemessenen Einzugsgebieten mit begrenzten hydrologischen Informationen. Die LSTM-Architektur zeigte eine insgesamt stärkere Leistung als das Transformer-Modell, und die Einbeziehung von Informationen flussabwärts verbesserte die Leistung aller Modelle zusätzlich.

deep learning Environmental Modeling machine learning AI

RESEARCHarXiv CS.LG·vor 7T

Geometry-Aware Tabular Diffusion

Geometry-Aware Tabular Diffusion (GATD) wird für die tabellarische Synthese eingeführt, indem Denoiser mit paarweisen Winkeln und Längen aus Spaltenwertdifferenzen erweitert werden. Es erreicht eine hochmoderne Leistung mit weniger Parametern, reduziert Form- und Trendfehler und zeigt, dass explizite relationale Überwachung die Verbesserung antreibt.

Diffusion Models data synthesis deep learning machine learning

RESEARCHarXiv CS.LG·vor 16T

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Dieses Papier stellt Tensor Cache vor, einen zweistufigen Cache für Transformatoren zur Optimierung von KV-Caches. Er kombiniert Sliding-Window-Softmax-Attention (L1) mit einem festgroßen Outer-Product-Fast-Weight-Memory (L2) zur Verwaltung entfernter Token und verbessert den Zugriff auf relevante Informationen außerhalb des Kontextfensters.

Associative Memory deep learning AI Caching

RESEARCHarXiv CS.LG·vor 9T

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn ist ein neues Framework für skalierbare, hochdimensionale Zeitreihenvorhersage, das die Lücke zwischen unabhängigen und abhängigen Kanalmodellen schließt. Es verwendet ein latentes Prototyp-Codebuch, um universelle Korrelationsmuster zu lernen, und übertrifft die modernsten Vorhersagearchitekturen, insbesondere in Few-Shot-Transfer-Szenarien.

forecasting pretraining deep learning machine learning

RESEARCHarXiv CS.LG·vor 16T

FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning

Diese Forschung stellt FuRA (Full-Rank Adaptation) vor, eine neuartige parameter-effiziente Feinabstimmungsmethode, die bestehende Techniken durch spektrale Vorbedingung verbessert. Durch die Reparameterisierung von Gewichtsmatrizen mittels vollständiger Singulärwertzerlegung und die Beschränkung von Aktualisierungen übertrifft FuRA die uneingeschränkte vollständige Feinabstimmung bei gleichzeitiger Effizienz.

Optimization deep learning machine learning spectral preconditioning

RESEARCHarXiv CS.LG·vor 13T

A Simple State Space Model Excels at Multivariate Time Series Classification

Diese Forschung untersucht systematisch strukturierte Zustandsraummodelle (SSMs) für die Zeitreihenklassifizierung und vergleicht komplexe Mamba-basierte Architekturen mit einfacheren diagonalen SSMs (S4D). Überraschenderweise übertrifft S4D Mamba-Varianten konsistent in Genauigkeit und Effizienz bei großen Benchmarks, was die Annahme in Frage stellt, dass eine erhöhte Modellkomplexität zu besseren Leistungen in diesem Bereich führt.

Time Series Classification deep learning machine learning Sequence Modeling

RESEARCHarXiv CS.LG·vor 13T

Comparative Analysis of Liquid Neural Networks and LSTM for Sequential Pattern Recognition: Robustness, Efficiency, and Clinical Utility

Liquid Neural Networks (LNNs) modellieren die Entwicklung des verborgenen Zustands als kontinuierliche Differentialgleichung, im Gegensatz zu diskreten RNNs und LSTMs. Diese Studie vergleicht LNNs mit LSTMs in vier sequenziellen Modalitäten und zeigt die überlegene Parameterffizienz und Robustheit von LNNs, insbesondere in nativen Zeitbereichen und klinischen Umgebungen.

neural networks Clinical AI deep learning machine learning

DOCDEV.to AI·4/16/2026

Understanding Transformers Part 8: Shared Weights in Self-Attention

Der Artikel erklärt, dass Transformatoren für Queries, Keys und Values denselben Satz von Gewichten über alle Eingabewörter hinweg wiederverwenden, was parallele Berechnungen ermöglicht. Diese Wiederverwendbarkeit macht den Self-Attention-Mechanismus äußerst effizient.

neural networks Self-Attention deep learning Parallel Computing

ARTICLEDEV.to AI·4/10/2026

Neural Machine Translation and Sequence-to-sequence Models: A Tutorial

Este tutorial aborda a tradução automática neural e os modelos sequência a sequência, explorando seus fundamentos e aplicações essenciais no campo da inteligência artificial.

Neural Machine Translation deep learning Sequence-to-sequence Models NLP

RESEARCHDEV.to AI·4/10/2026

LongLive: Real-time Interactive Long Video Generation

Este conteúdo aborda LongLive, um sistema para a geração interativa e em tempo real de vídeos longos. A tecnologia foca em produzir sequências de vídeo estendidas de forma dinâmica.

deep learning interactive AI video generation real-time AI

RESEARCHDEV.to AI·vor 28T

Deep Time Series Models: A Comprehensive Survey and Benchmark

Dieses Papier bietet eine umfassende Übersicht und einen Benchmark von Deep-Learning-Modellen, die auf Zeitreihendaten angewendet werden. Es werden systematisch verschiedene Architekturen und ihre Leistung über verschiedene Aufgaben und Datensätze hinweg überprüft.

Survey deep learning machine learning Benchmarking

RESEARCHDEV.to AI·4/27/2026

Review of Deep Learning

Dieser Inhalt ist eine eingehende Überprüfung des Deep Learning, die seine Grundlagen und Fortschritte untersucht. Er bietet eine umfassende Analyse der Techniken und Anwendungen in diesem Bereich der künstlichen Intelligenz.

review deep learning AI

RESEARCHDEV.to AI·4/25/2026

Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU SparseAutoencoders

Dieser Inhalt beschreibt Forschung zur Verbesserung der Rekonstruktionsgenauigkeit durch den Einsatz eines neuartigen Ansatzes namens JumpReLU SparseAutoencoders.

deep learning autoencoders machine learning

RESEARCHDEV.to AI·vor 24T

Improving Deep Pancreas Segmentation in CT and MRI Images via Recurrent NeuralContextual Learning and Direct Loss Function

Dieser Artikel schlägt eine innovative Methode zur Verbesserung der Pankreassegmentierung in CT- und MRT-Bildern vor. Er verwendet rekurrentes neuronales Kontextlernen und eine direkte Verlustfunktion zur Optimierung der Genauigkeit.

CT deep learning pancreas segmentation MRI

RESEARCHDEV.to AI·4/28/2026

You Only Watch Once: A Unified CNN Architecture for Real-Time SpatiotemporalAction Localization

Der Titel beschreibt eine vereinheitlichte CNN-Architektur für die Echtzeit-Lokalisierung raum-zeitlicher Aktionen. Diese Arbeit konzentriert sich auf die Verbesserung der Effizienz und Genauigkeit bei der Erkennung von Aktivitäten in Videos.

CNN deep learning computer vision Action Recognition

ARTICLEDEV.to AI·4/15/2026

A Modern Take on the Bias-Variance Tradeoff in Neural Networks

Dieser Artikel bietet eine moderne Perspektive auf den klassischen Bias-Varianz-Kompromiss und bewertet dessen Anwendung und Relevanz im Kontext zeitgenössischer neuronaler Netze neu. Er untersucht, wie sich dieses grundlegende Konzept in Deep-Learning-Modellen manifestiert und deren Leistung beeinflusst.

neural networks model performance deep learning machine learning

RESEARCHDEV.to AI·4/19/2026

Camera identification with deep convolutional networks

Diese Forschung untersucht den Einsatz tiefer neuronaler Netze zur spezifischen Identifizierung von Kameras. Sie erforscht, wie diese fortschrittlichen KI-Modelle verschiedene Kameras unterscheiden können.

deep learning computer vision AI