← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·vor 1T

Multi-Scale Feature Attention Network for Polymer Classification using THz Dual-Comb Spectroscopy

Diese Forschung schlägt das Multi-Scale Feature Attention Network (MSFAN) vor, eine neuartige Deep-Learning-Architektur zur Klassifizierung von 12 Polymertypen mittels Terahertz-Doppelkammspektroskopie (THz-DCS). Der Rahmen zielt auf die zuverlässige Polymeridentifikation für recycelte Kunststoffe ab, indem er Feature-Gating und parallele Multi-Skalen-Faltungen integriert.

60
RESEARCHarXiv CS.LG·vor 1T

Principles and Practice of Deep Representation Learning: or a Mathematical Theory of Memory

Dieses Buch versucht, große tiefe Netzwerke und generative Modelle, die oft als „Black Boxes“ wahrgenommen werden, zu entmystifizieren, indem es ihre internen Mechanismen aus der Perspektive des Repräsentationslernens untersucht. Es beschreibt die Designprinzipien moderner neuronaler Netzwerkarchitekturen unter Verwendung von Optimierungs- und Informationstheorie.

60
ARTICLEHugging Face (YouTube)·vor 10Std

What Is ONNX? (And Why Transformers.js Uses It)

ONNX (Open Neural Network Exchange) ist ein offener Standard, der ein gemeinsames Graphenformat für maschinelle Lernmodelle definiert und die Interoperabilität zwischen verschiedenen ML-Frameworks ermöglicht. Transformers.js nutzt ONNX, um vortrainierte Transformer-Modelle direkt im Browser auszuführen und bietet so effiziente und plattformunabhängige KI-Inferenzfunktionen für Webanwendungen.

What Is ONNX? (And Why Transformers.js Uses It)
58
RESEARCHarXiv CS.LG·vor 19Std

MedicalRec: Medical recommender system for image classification without retraining

Diese Studie stellt MedicalRec vor, ein medizinisches Empfehlungssystem für die Bildklassifikation, das darauf abzielt, die Modellauswahl ohne erneutes Training zu optimieren. Es begegnet den Rechen- und Energieproblemen bei der Modellidentifikation durch einen öffentlich verfügbaren Datensatz, MedicalRec-Bench, der aus 3.000 Artikeln und über 5.000 getesteten Modellaufzeichnungen besteht.

54
RESEARCHarXiv CS.LG·vor 19Std

TriHead-GAN: A Generative Adversarial Network with Triple-Head Discriminator for Carbon Emission Time Series Generation

TriHead-GAN schlägt ein Transformer-basiertes Generative Adversarial Network mit einem Triple-Head-Diskriminator vor, um der Knappheit von Kohlenstoffemissionsdaten auf Stadtebene zu begegnen. Dieses Framework verbessert die Zeitreihengenerierung, indem es im Vergleich zu bestehenden Modellen Kreuzvariablenkorrelationen und realistische schrittweise Variabilität besser erhält.

54
RESEARCHarXiv CS.LG·vor 19Std

STARIXNet: Multivariate and Multi-attribute Deep Learning Approach to Real-Time Resource Allocation in Cloud Platforms

Die Arbeit stellt STARIXNet vor, ein leichtgewichtiges neuronales Netzwerk für die Ressourcenzuweisung in Cloud-Plattformen, das die Einschränkungen aktueller univariater Lösungen adressiert, die Risiken von Unterschätzung und Verzögerungen vernachlässigen. Dieser Deep-Learning-Ansatz erfasst raum-zeitliche Beziehungen und mehrere Attribute, um intelligente Skalierungsentscheidungen für Microservices zu steuern.

54
RESEARCHarXiv CS.AI·vor 19Std

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem ist ein speichereffizientes Streaming-Framework für audiovisuelle LLMs, das entwickelt wurde, um die Einschränkungen der Langvideo-Inferenz aufgrund zunehmender Videotoken und KV-Caches zu überwinden. Es verwendet eine modalitätsbewusste Speicherzuweisung und eine störungsbewusste Speicherauswahl, um informative KV-Zustände zu erhalten, wodurch Komprimierung und Weitbereichsverständnis verbessert werden.

54
ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Ein neues Buch und Open-Source-Code wurden veröffentlicht, die detailliert beschreiben, wie moderne LLM-Architekturen wie GPT-2, Llama 3 und DeepSeek von Grund auf in PyTorch erstellt werden können. Es erläutert die architektonischen Änderungen, die zur Transformation von GPT-2 in Llama 3 erforderlich sind, und implementiert die erweiterten Funktionen von DeepSeek.

46
ARTICLE↑ trendingReddit r/MachineLearning·4/11/2026

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

Ein aktualisiertes PyTorch-Repository bietet lehrreiche Implementierungen der FlashAttention-Versionen FA1 bis FA4. Der Schwerpunkt liegt auf der Demonstration der algorithmischen Unterschiede und der Evolution der Methode, um ein Verständnis ihrer Designideen ohne Eingehen auf hardwarespezifische Details zu ermöglichen.

45
RESEARCH↑ trendingReddit r/MachineLearning·4/18/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

LIDARLearn ist eine vereinheitlichte PyTorch-Bibliothek für 3D-Punktwolken-Deep-Learning, die 56 sofort einsatzbereite Konfigurationen und integrierte Kreuzvalidierung unterstützt. Sie automatisiert zudem die Erstellung publikationsreifer LaTeX-PDFs nach dem Training und ist somit ideal für Forscher in 3D-Computer Vision und Fernerkundung.

We’re proud to open-source LIDARLearn [R] [D] [P]
44
RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Trained transformer-based chess models to play like humans (including thinking time) [P]

Ein Entwickler trainierte transformer-basierte Deep-Learning-Modelle, um Schach wie Menschen über verschiedene Bewertungsbereiche hinweg zu spielen, einschließlich der Vorhersage der Denkzeit. Die Modelle wurden mit Lichess-Daten trainiert und erreichten trotz ihrer geringen Größe eine mit MAIA-3 vergleichbare Genauigkeit.

44
ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Dieses lehrreiche PyTorch-Repository implementiert verschiedene Techniken des verteilten Trainingsparallelismus, darunter DP, FSDP, TP und PP, von Grund auf neu. Es implementiert explizit die Vorwärts-/Rückwärtslogik und Kollektive, wodurch Benutzer die Algorithmen und Kommunikationsmuster ohne übergeordnete Abstraktionen direkt verstehen können.

43