← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·vor 12T

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Dieser Artikel untersucht die mechanistischen Ursprünge des katastrophalen Vergessens in großen Sprachmodellen (LLMs) durch den Vergleich von Reinforcement Learning (RL) mit Supervised Fine-Tuning (SFT). Er zeigt, dass RL interne Rechenschaltkreise effektiver erhält und das Vergessen früherer Fähigkeiten im Gegensatz zu SFT, das größere Schaltkreisstörungen verursacht, mildert.

27
RESEARCHarXiv CS.CL·vor 7T

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Forscher haben herausgefunden, dass die Leistung von Sprachmodellen erheblich verbessert werden kann, wenn tiefere Schichten kontextfreie Wertvektoren lernen, die die ursprünglichen Token-Informationen bewahren. Dies macht eine Neuberechnung oder persistente Speicherung dieser Werte überflüssig, da die kontextabhängige Komponente nur geringen zusätzlichen Nutzen bietet.

27
RESEARCHarXiv CS.LG·vor 9T

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Diese Studie stellt Gait2Hip-60 vor, ein Deep-Learning-Framework zur direkten Vorhersage von Hüftmuskelkräften und Gelenkmomenten aus der Ganganalyse bei mehreren Kadenzen. Es vergleicht LSTM-, Transformer- und Mamba-Modelle und bewertet deren Leistung bei gesunden Erwachsenen sowie bei einer externen Kohorte von Patienten.

27
RESEARCHarXiv CS.AI·vor 7T

Evaluating Transformer and LSTM Frameworks for Prediction in Ungauged Basins

Diese Studie bewertet Transformer- und LSTM-Frameworks für die Abflussvorhersage in ungemessenen Einzugsgebieten mit begrenzten hydrologischen Informationen. Die LSTM-Architektur zeigte eine insgesamt stärkere Leistung als das Transformer-Modell, und die Einbeziehung von Informationen flussabwärts verbesserte die Leistung aller Modelle zusätzlich.

27
RESEARCHarXiv CS.LG·vor 7T

Geometry-Aware Tabular Diffusion

Geometry-Aware Tabular Diffusion (GATD) wird für die tabellarische Synthese eingeführt, indem Denoiser mit paarweisen Winkeln und Längen aus Spaltenwertdifferenzen erweitert werden. Es erreicht eine hochmoderne Leistung mit weniger Parametern, reduziert Form- und Trendfehler und zeigt, dass explizite relationale Überwachung die Verbesserung antreibt.

27
RESEARCHarXiv CS.LG·vor 9T

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn ist ein neues Framework für skalierbare, hochdimensionale Zeitreihenvorhersage, das die Lücke zwischen unabhängigen und abhängigen Kanalmodellen schließt. Es verwendet ein latentes Prototyp-Codebuch, um universelle Korrelationsmuster zu lernen, und übertrifft die modernsten Vorhersagearchitekturen, insbesondere in Few-Shot-Transfer-Szenarien.

27
RESEARCHarXiv CS.LG·vor 16T

FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning

Diese Forschung stellt FuRA (Full-Rank Adaptation) vor, eine neuartige parameter-effiziente Feinabstimmungsmethode, die bestehende Techniken durch spektrale Vorbedingung verbessert. Durch die Reparameterisierung von Gewichtsmatrizen mittels vollständiger Singulärwertzerlegung und die Beschränkung von Aktualisierungen übertrifft FuRA die uneingeschränkte vollständige Feinabstimmung bei gleichzeitiger Effizienz.

27
RESEARCHarXiv CS.LG·vor 13T

A Simple State Space Model Excels at Multivariate Time Series Classification

Diese Forschung untersucht systematisch strukturierte Zustandsraummodelle (SSMs) für die Zeitreihenklassifizierung und vergleicht komplexe Mamba-basierte Architekturen mit einfacheren diagonalen SSMs (S4D). Überraschenderweise übertrifft S4D Mamba-Varianten konsistent in Genauigkeit und Effizienz bei großen Benchmarks, was die Annahme in Frage stellt, dass eine erhöhte Modellkomplexität zu besseren Leistungen in diesem Bereich führt.

27
RESEARCHarXiv CS.LG·vor 13T

Comparative Analysis of Liquid Neural Networks and LSTM for Sequential Pattern Recognition: Robustness, Efficiency, and Clinical Utility

Liquid Neural Networks (LNNs) modellieren die Entwicklung des verborgenen Zustands als kontinuierliche Differentialgleichung, im Gegensatz zu diskreten RNNs und LSTMs. Diese Studie vergleicht LNNs mit LSTMs in vier sequenziellen Modalitäten und zeigt die überlegene Parameterffizienz und Robustheit von LNNs, insbesondere in nativen Zeitbereichen und klinischen Umgebungen.

27
RESEARCHDEV.to AI·4/27/2026

Review of Deep Learning

Dieser Inhalt ist eine eingehende Überprüfung des Deep Learning, die seine Grundlagen und Fortschritte untersucht. Er bietet eine umfassende Analyse der Techniken und Anwendungen in diesem Bereich der künstlichen Intelligenz.

27