deep learning

263 items

RESEARCH↑ trendingHacker News (AI)·vor 5Std

Yann LeCun: World Models: Enabling the Next AI Revolution [video]

Dieses Video zeigt Yann LeCun, wie er "Weltmodelle" diskutiert, eine vielversprechende Architektur für die nächste Generation der KI. Er untersucht, wie diese Modelle es Maschinen ermöglichen können, ihre Umgebung vorherzusagen und mit ihr zu interagieren, was zu intelligenteren und vielseitigeren KI-Systemen führt.

future-of-AI AI models deep learning machine learning

RESEARCHarXiv CS.LG·vor 1T

Multi-Scale Feature Attention Network for Polymer Classification using THz Dual-Comb Spectroscopy

Diese Forschung schlägt das Multi-Scale Feature Attention Network (MSFAN) vor, eine neuartige Deep-Learning-Architektur zur Klassifizierung von 12 Polymertypen mittels Terahertz-Doppelkammspektroskopie (THz-DCS). Der Rahmen zielt auf die zuverlässige Polymeridentifikation für recycelte Kunststoffe ab, indem er Feature-Gating und parallele Multi-Skalen-Faltungen integriert.

polymer classification deep learning spectroscopy

RESEARCHarXiv CS.LG·vor 1T

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

Der Artikel stellt WAV v1 vor, eine leichte Multi-Resolution-Residual-Routing-Methode für Decoder-Only-Transformatoren. Sie verbessert Standard-Residual-Verbindungen, indem sie jeden Block mit direktionalen Detailbasen erweitert, die Aufmerksamkeits- und MLP-Updates sowie frühe und späte Sublayer-Dynamiken kontrastieren.

Residual Connections neural networks deep learning Model Architecture

RESEARCHarXiv CS.LG·vor 1T

Principles and Practice of Deep Representation Learning: or a Mathematical Theory of Memory

Dieses Buch versucht, große tiefe Netzwerke und generative Modelle, die oft als „Black Boxes“ wahrgenommen werden, zu entmystifizieren, indem es ihre internen Mechanismen aus der Perspektive des Repräsentationslernens untersucht. Es beschreibt die Designprinzipien moderner neuronaler Netzwerkarchitekturen unter Verwendung von Optimierungs- und Informationstheorie.

neural networks deep learning learning generative models

ARTICLEHugging Face (YouTube)·vor 10Std

What Is ONNX? (And Why Transformers.js Uses It)

ONNX (Open Neural Network Exchange) ist ein offener Standard, der ein gemeinsames Graphenformat für maschinelle Lernmodelle definiert und die Interoperabilität zwischen verschiedenen ML-Frameworks ermöglicht. Transformers.js nutzt ONNX, um vortrainierte Transformer-Modelle direkt im Browser auszuführen und bietet so effiziente und plattformunabhängige KI-Inferenzfunktionen für Webanwendungen.

AI models ONNX deep learning machine learning

What Is ONNX? (And Why Transformers.js Uses It)

RESEARCHDEV.to AI·vor 16Std

Quality of Uncertainty Quantification for Bayesian Neural Network Inference

Dieser Inhalt untersucht den kritischen Aspekt der Bewertung der Qualität der Unsicherheitsquantifizierung speziell bei der Inferenz von Bayes'schen neuronalen Netzen. Er befasst sich wahrscheinlich mit Methoden zur Bewertung und Verbesserung der Zuverlässigkeit prädiktiver Unsicherheitsabschätzungen in KI-Modellen.

deep learning Uncertainty Quantification machine learning AI

RESEARCHarXiv CS.LG·vor 19Std

MedicalRec: Medical recommender system for image classification without retraining

Diese Studie stellt MedicalRec vor, ein medizinisches Empfehlungssystem für die Bildklassifikation, das darauf abzielt, die Modellauswahl ohne erneutes Training zu optimieren. Es begegnet den Rechen- und Energieproblemen bei der Modellidentifikation durch einen öffentlich verfügbaren Datensatz, MedicalRec-Bench, der aus 3.000 Artikeln und über 5.000 getesteten Modellaufzeichnungen besteht.

recommender systems deep learning machine learning healthcare AI

RESEARCHarXiv CS.LG·vor 19Std

TriHead-GAN: A Generative Adversarial Network with Triple-Head Discriminator for Carbon Emission Time Series Generation

TriHead-GAN schlägt ein Transformer-basiertes Generative Adversarial Network mit einem Triple-Head-Diskriminator vor, um der Knappheit von Kohlenstoffemissionsdaten auf Stadtebene zu begegnen. Dieses Framework verbessert die Zeitreihengenerierung, indem es im Vergleich zu bestehenden Modellen Kreuzvariablenkorrelationen und realistische schrittweise Variabilität besser erhält.

deep learning Carbon Emissions Time Series Analysis Climate AI

RESEARCHarXiv CS.LG·vor 19Std

STARIXNet: Multivariate and Multi-attribute Deep Learning Approach to Real-Time Resource Allocation in Cloud Platforms

Die Arbeit stellt STARIXNet vor, ein leichtgewichtiges neuronales Netzwerk für die Ressourcenzuweisung in Cloud-Plattformen, das die Einschränkungen aktueller univariater Lösungen adressiert, die Risiken von Unterschätzung und Verzögerungen vernachlässigen. Dieser Deep-Learning-Ansatz erfasst raum-zeitliche Beziehungen und mehrere Attribute, um intelligente Skalierungsentscheidungen für Microservices zu steuern.

neural networks microservices deep learning cloud computing

RESEARCHarXiv CS.AI·vor 19Std

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem ist ein speichereffizientes Streaming-Framework für audiovisuelle LLMs, das entwickelt wurde, um die Einschränkungen der Langvideo-Inferenz aufgrund zunehmender Videotoken und KV-Caches zu überwinden. Es verwendet eine modalitätsbewusste Speicherzuweisung und eine störungsbewusste Speicherauswahl, um informative KV-Zustände zu erhalten, wodurch Komprimierung und Weitbereichsverständnis verbessert werden.

LLMs Audio-Visual AI deep learning Streaming

RESEARCHDEV.to AI·vor 2T

DurIAN: Duration Informed Attention Network For Multimodal Synthesis

DurIAN ist ein Dauer-informiertes Aufmerksamkeitsnetzwerk für multimodale Synthese. Diese Arbeit konzentriert sich auf die Architektur eines KI-Modells, das entwickelt wurde, um kohärente und synchronisierte Ausgaben über mehrere Modalitäten hinweg zu generieren.

attention networks multimodal AI deep learning speech synthesis

NEWS↑ trendingHacker News (AI)·vor 3T

AI Memory Proves Inefficient: Tenure Project Detects 95% Error Rate

Ein aktuelles Projekt entdeckte eine Fehlerrate von 95 % im KI-Speicher, was dessen Ineffizienz belegt. Diese Erkenntnis wirft erhebliche Bedenken hinsichtlich der Zuverlässigkeit und Leistung von Systemen der künstlichen Intelligenz auf.

Error Rate research deep learning AI Efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Ein neues Buch und Open-Source-Code wurden veröffentlicht, die detailliert beschreiben, wie moderne LLM-Architekturen wie GPT-2, Llama 3 und DeepSeek von Grund auf in PyTorch erstellt werden können. Es erläutert die architektonischen Änderungen, die zur Transformation von GPT-2 in Llama 3 erforderlich sind, und implementiert die erweiterten Funktionen von DeepSeek.

Open Source deep learning Transformer Models PyTorch

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Video of how my LLM's decoder blocks changed while training

Dieser Beitrag präsentiert ein Video, das demonstriert, wie sich die Decoder-Blöcke eines LLM während des Trainings verändert haben, aufbauend auf einem beliebten früheren Beitrag. Der Autor teilt visuelle Daten, um den Entwicklungsprozess des Modells zu veranschaulichen.

neural networks deep learning Training decoder blocks

Video of how my LLM's decoder blocks changed while training

ARTICLEDEV.to AI·vor 1T

Building a Multilayer Perceptron from Scratch: What It Taught Me About Neural Networks

Der Autor baute ein Multilayer Perceptron (MLP) von Grund auf mit NumPy, um ein tieferes Verständnis der neuronalen Netzwerkmechanismen wie Backpropagation und Gradientenberechnung zu erlangen. Dieses Projekt verbesserte sein Verständnis, wie Deep-Learning-Modelle bedeutungsvolle Muster lernen, erheblich.

neural networks deep learning learning Python

ARTICLE↑ trendingReddit r/MachineLearning·4/11/2026

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

Ein aktualisiertes PyTorch-Repository bietet lehrreiche Implementierungen der FlashAttention-Versionen FA1 bis FA4. Der Schwerpunkt liegt auf der Demonstration der algorithmischen Unterschiede und der Evolution der Methode, um ein Verständnis ihrer Designideen ohne Eingehen auf hardwarespezifische Details zu ermöglichen.

FlashAttention deep learning Attention Mechanism Algorithms

RESEARCH↑ trendingReddit r/MachineLearning·4/18/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

LIDARLearn ist eine vereinheitlichte PyTorch-Bibliothek für 3D-Punktwolken-Deep-Learning, die 56 sofort einsatzbereite Konfigurationen und integrierte Kreuzvalidierung unterstützt. Sie automatisiert zudem die Erstellung publikationsreifer LaTeX-PDFs nach dem Training und ist somit ideal für Forscher in 3D-Computer Vision und Fernerkundung.

Open Source deep learning computer vision 3d-point-cloud

We’re proud to open-source LIDARLearn [R] [D] [P]

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Trained transformer-based chess models to play like humans (including thinking time) [P]

Ein Entwickler trainierte transformer-basierte Deep-Learning-Modelle, um Schach wie Menschen über verschiedene Bewertungsbereiche hinweg zu spielen, einschließlich der Vorhersage der Denkzeit. Die Modelle wurden mit Lichess-Daten trainiert und erreichten trotz ihrer geringen Größe eine mit MAIA-3 vergleichbare Genauigkeit.

AI models deep learning chess AI model training

ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Dieses lehrreiche PyTorch-Repository implementiert verschiedene Techniken des verteilten Trainingsparallelismus, darunter DP, FSDP, TP und PP, von Grund auf neu. Es implementiert explizit die Vorwärts-/Rückwärtslogik und Kollektive, wodurch Benutzer die Algorithmen und Kommunikationsmuster ohne übergeordnete Abstraktionen direkt verstehen können.

distributed training FSDP deep learning Parallelism

NEWS↑ trendingReddit r/LocalLLaMA·4/23/2026

Deepseek has released DeepEP V2 and TileKernels.

Deepseek hat DeepEP V2 und TileKernels veröffentlicht. Diese auf GitHub verfügbaren Projekte stellen neue Entwicklungen in ihrem KI-bezogenen Softwareangebot dar.

Open Source deep learning AI development