deep learning

263 items

RESEARCH↑ trendingReddit r/MachineLearning·5/3/2026

Struggling with Chebyshev Filter Integration in CNN — Any Advice? [R]

Ein Benutzer hat Schwierigkeiten, Chebyshev-Filter in eine CNN-Architektur zu integrieren, um die Leistung zu verbessern, und stellt fest, dass die aktuellen Ergebnisse dem Basismodell ähneln. Er sucht Ratschläge zur Filterintegration, Platzierung und Abstimmung sowie zu den Erfahrungen anderer.

CNN deep learning feature extraction Chebyshev filter

NEWS↑ trendingReddit r/LocalLLaMA·4/22/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI hat FlashKDA als Open Source veröffentlicht, einen CUTLASS C++ Kernel für Kimi Delta Attention, der Leistungssteigerungen von bis zu 2.22x gegenüber der Triton-Baseline auf H20-Benchmarks bietet. Diese Implementierung verbessert lineare Aufmerksamkeitsarchitekturen.

Open Source deep learning Performance optimization attention mechanisms

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

NEWS↑ trendingReddit r/MachineLearning·4/24/2026

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]

Ein neuer PyTorch-Optimierer namens 'Rose' wurde veröffentlicht, der geringen VRAM-Verbrauch, schnelle Konvergenz und exzellente Generalisierung verspricht und unter Apache 2.0 lizenziert ist. Über mehrere Jahre entwickelt, soll er benutzerfreundlich und speichereffizienter als 8-bit AdamW sein.

deep learning machine learning VRAM Optimization optimizer

DOC↑ trendingReddit r/LocalLLaMA·4/27/2026

To 16GB VRAM users, plug in your old GPU

Dieser Inhalt schlägt vor, dass Benutzer mit 16 GB VRAM eine alte GPU (6 GB+ VRAM) hinzufügen, um den gesamten VRAM zu erhöhen, was die Ausführung größerer LLM-Modelle (~30b) auch mit einer schwächeren Sekundärkarte ermöglicht. Es enthält ein praktisches Konfigurationsbeispiel für `llama-server`.

deep learning GPU optimization LLM inference VRAM management

ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

LLMs learn backwards, and the scaling hypothesis is bounded. [D]

Dieser Inhalt erörtert die Ansicht, dass Large Language Models (LLMs) invers lernen und die Skalierbarkeitshypothese inhärente Grenzen aufweist.

LLMs deep learning scaling hypothesis modelos de linguagem

ARTICLE↑ trendingReddit r/MachineLearning·4/19/2026

On the path towards a true science of deep learning [D]

Ein Wissenschaftler mit doppelter Zugehörigkeit zu Industrie und Wissenschaft teilt Einblicke in die Entwicklung einer fundamentalen wissenschaftlichen Theorie des maschinellen Lernens, basierend auf etwa sieben Jahren Arbeit. Der Beitrag skizziert Gedanken, wie eine echte Wissenschaft des Deep Learning erreicht werden kann.

research deep learning AI Theory machine learning

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Elastic Attention Cores for Scalable Vision Transformers [R]

Dieses Paper stellt Elastic Attention Cores als neuen Baustein für skalierbare Vision Transformer vor, um die hohen Kosten dichter Selbst-Aufmerksamkeit zu adressieren. Der Ansatz verwendet eine Kern-Peripherie-Block-Sparse-Aufmerksamkeitsstruktur und Nested Dropout für elastische Anpassungen der Inferenzkosten, wodurch eine hohe Genauigkeit erreicht wird.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

RESEARCH↑ trendingReddit r/MachineLearning·vor 26T

Follow the Mean: Reference-Guided Flow Matching [R]

Dieser Inhalt bezieht sich auf einen Forschungsartikel mit dem Titel "Follow the Mean: Reference-Guided Flow Matching". Er untersucht eine neue Methodik in generativen Modellen.

deep learning generative models machine learning Flow Matching

Follow the Mean: Reference-Guided Flow Matching [R]

ARTICLE↑ trendingReddit r/MachineLearning·4/20/2026

MILA vs Polytechnique Montreal: reapply or move on? [D]

Ein Maschinenbauingenieur mit Softwareentwicklungserfahrung entscheidet sich zwischen zwei professionellen Masterstudiengängen im Bereich KI: entweder ein Informatik-Minor zu absolvieren, um sich erneut bei MILA zu bewerben, oder das Angebot der Polytechnique Montréal anzunehmen. Die Entscheidung wägt einen längeren akademischen Weg zur Stärkung der theoretischen Grundlagen gegen einen schnelleren Berufseinstieg ab.

education Career Development deep learning machine learning

RESEARCH↑ trendingReddit r/MachineLearning·vor 19T

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Diese Diskussion hinterfragt, ob Produktions-Vision-Language-Modelle (VLMs) trotz effizienterer Tokenisierungsverfahren immer noch fest gepatchte Vision Transformer (ViTs) für ihre Sehfähigkeiten verwenden. Es werden mögliche Gründe dafür untersucht, wie marginale Gewinne, Pipeline-Einschränkungen oder unklare Skalierungsgesetze für adaptives Patching.

VLMs deep learning Vision Transformers Tokenization

RESEARCH↑ trendingReddit r/MachineLearning·5/6/2026

Transformers with Selective Access to Early Representations [R]

Das Paper stellt SATFormer vor, eine neue Transformer-Variante, die die Effizienz verbessert, indem sie den "Heads" ermöglicht, frühzeitige Repräsentationen selektiv erneut abzurufen, anstatt sie uniform zu kopieren. Dieser kontextabhängige Gating-Mechanismus optimiert die Wiederverwendung von Informationen und bietet ein besseres Effizienz-Leistungs-Verhältnis.

AI architecture deep learning efficiency Transformers

Transformers with Selective Access to Early Representations [R]

RESEARCH↑ trendingReddit r/MachineLearning·4/17/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

Der Inhalt beschreibt ein anhaltendes Problem mit geringer Genauigkeit (~50%) bei der hyperspektralen Pflanzenstresserkennung mittels selbstüberwachter Lernmethoden wie BYOL, MAE und VICReg. Trotz verschiedener Techniken bleibt die Leistung für drei Klassen kaum besser als zufällig, was zu Zweifeln an der Datenseparierbarkeit oder der Eignung der SSL-Methoden führt.

model performance Hyperspectral imaging deep learning self-supervised learning

NEWS↑ trendingReddit r/MachineLearning·4/26/2026

Introducing AutoMuon, a one line drop in for AdamW [P]

AutoMuon, ein neues Python-Paket, ermöglicht die nahtlose Nutzung des Muon-Optimierers als Ersatz für AdamW in PyTorch-Trainingspipelines. Es scannt das Modell, um automatisch den passenden Optimierer für jeden Parameter anzuwenden, wobei Muon für Gewichtsmatrizen und AdamW für andere Komponenten verwendet wird.

deep learning optimizer python-package PyTorch

ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

LLM Neuroanatomy III - LLMs seem to think in geometry, not language

Dieser Artikel, Teil der Reihe „LLM-Neuroanatomie“, legt nahe, dass Große Sprachmodelle Informationen eher geometrisch als sprachlich verarbeiten. Er untersucht die internen Mechanismen und die strukturelle Organisation dieser fortschrittlichen KI-Modelle.

AI architecture LLMs deep learning Neuroscience

LLM Neuroanatomy III - LLMs seem to think in geometry, not language

RESEARCH↑ trendingReddit r/MachineLearning·4/14/2026

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

Diese Forschung stellt die HALO-Loss vor, eine neuartige Methode zum Trainieren neuronaler Netze, um bei Unsicherheit keine Vorhersagen zu treffen. Sie ermöglicht es Modellen, "Ich weiß es nicht" auszudrücken, anstatt potenziell falsche Antworten zu geben, was die Zuverlässigkeit verbessert.

neural networks model robustness deep learning machine learning

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

Takeaways & discussion about the DeepSeek V4 architecture

Dieser Artikel behandelt die architektonischen Neuerungen von DeepSeek V4, wobei sein hybrides Aufmerksamkeits-System (CSA + HCA) und die Manifold-Constrained Hyper-Connections hervorgehoben werden. Er bespricht auch das FP4 QAT-Training im Grenzbereich und unterscheidet es von früheren Modellen.

DeepSeek deep learning attention mechanisms quantization

CASE↑ trendingReddit r/MachineLearning·4/27/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Ein Benutzer stellte fest, dass die INT8-Quantisierung in seinem Deep-Learning-Modell eine bessere Inferenzgenauigkeit als FP16 lieferte, was unerwartet war. Er sucht nach Erklärungen für die überlegene Leistung von INT8 gegenüber FP16.

inference ONNX deep learning quantization

DOC↑ trendingReddit r/MachineLearning·4/16/2026

AI for Materials Science starter kit [D]

Ein Deep-Learning-Praktiker sucht nach Ressourcen wie Papers, Kursen und Tutorials, um sich in KI für Materialwissenschaften einzuarbeiten. Ziel ist es, ausreichend Wissen zu erlangen, um sinnvolle Forschung in diesem Bereich zu betreiben und einen Beitrag zur Gemeinschaft zu leisten, wobei ein UChicago-Kurs als Referenzpunkt dient.

Materials Science deep learning computational chemistry cheminformatics

DOCDEV.to AI·4/23/2026

Redes Neuronales Convolucionales - Clasificacione de imagenes Landmarks

In diesem Video erklärt der Autor den Pipeline-Prozess zum Trainieren eines neuronalen Netzwerkmodells mittels Convolutional Neural Networks (CNN) zur Klassifizierung von Landmarkenbildern. Interessierte können den Trainings-Pipeline auf dem Github des Autors verfolgen und testen.

neural networks deep learning image classification Convolutional Neural Networks

DOCDEV.to AI·vor 2T

Pytorch for Neural Networks Part 7: Training with Loss and Derivatives

Dieser Artikel, Teil einer PyTorch-Reihe, beschreibt den Trainingsprozess neuronaler Netze, indem er eine verschachtelte Schleifenstruktur zum Iterieren über Trainingsdaten demonstriert. Er erklärt, wie der Gesamtverlust berechnet, die Ausgabe abgeleitet und die Verlustfunktion zur Modelloptimierung mittels `loss.backward()` angewendet wird.

neural networks deep learning learning Training