← heapsort-ai

deep learning

263 items

NEWS↑ trendingReddit r/LocalLLaMA·4/22/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI hat FlashKDA als Open Source veröffentlicht, einen CUTLASS C++ Kernel für Kimi Delta Attention, der Leistungssteigerungen von bis zu 2.22x gegenüber der Triton-Baseline auf H20-Benchmarks bietet. Diese Implementierung verbessert lineare Aufmerksamkeitsarchitekturen.

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20
42
RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Elastic Attention Cores for Scalable Vision Transformers [R]

Dieses Paper stellt Elastic Attention Cores als neuen Baustein für skalierbare Vision Transformer vor, um die hohen Kosten dichter Selbst-Aufmerksamkeit zu adressieren. Der Ansatz verwendet eine Kern-Peripherie-Block-Sparse-Aufmerksamkeitsstruktur und Nested Dropout für elastische Anpassungen der Inferenzkosten, wodurch eine hohe Genauigkeit erreicht wird.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
ARTICLE↑ trendingReddit r/MachineLearning·4/20/2026

MILA vs Polytechnique Montreal: reapply or move on? [D]

Ein Maschinenbauingenieur mit Softwareentwicklungserfahrung entscheidet sich zwischen zwei professionellen Masterstudiengängen im Bereich KI: entweder ein Informatik-Minor zu absolvieren, um sich erneut bei MILA zu bewerben, oder das Angebot der Polytechnique Montréal anzunehmen. Die Entscheidung wägt einen längeren akademischen Weg zur Stärkung der theoretischen Grundlagen gegen einen schnelleren Berufseinstieg ab.

42
RESEARCH↑ trendingReddit r/MachineLearning·vor 19T

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Diese Diskussion hinterfragt, ob Produktions-Vision-Language-Modelle (VLMs) trotz effizienterer Tokenisierungsverfahren immer noch fest gepatchte Vision Transformer (ViTs) für ihre Sehfähigkeiten verwenden. Es werden mögliche Gründe dafür untersucht, wie marginale Gewinne, Pipeline-Einschränkungen oder unklare Skalierungsgesetze für adaptives Patching.

42
RESEARCH↑ trendingReddit r/MachineLearning·5/6/2026

Transformers with Selective Access to Early Representations [R]

Das Paper stellt SATFormer vor, eine neue Transformer-Variante, die die Effizienz verbessert, indem sie den "Heads" ermöglicht, frühzeitige Repräsentationen selektiv erneut abzurufen, anstatt sie uniform zu kopieren. Dieser kontextabhängige Gating-Mechanismus optimiert die Wiederverwendung von Informationen und bietet ein besseres Effizienz-Leistungs-Verhältnis.

Transformers with Selective Access to Early Representations [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·4/17/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

Der Inhalt beschreibt ein anhaltendes Problem mit geringer Genauigkeit (~50%) bei der hyperspektralen Pflanzenstresserkennung mittels selbstüberwachter Lernmethoden wie BYOL, MAE und VICReg. Trotz verschiedener Techniken bleibt die Leistung für drei Klassen kaum besser als zufällig, was zu Zweifeln an der Datenseparierbarkeit oder der Eignung der SSL-Methoden führt.

42