← heapsort-ai

deep learning

263 items

ARTICLEDEV.to AI·vor 18T

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

Der Artikel "SilentRecon Deep Dive" beleuchtet die Transformer-Architektur und erklärt, wie sie RNNs und LSTMs durch parallele Verarbeitung und Aufmerksamkeit übertraf. Dies führte zu Skalierbarkeit, schnellerem Training, tieferem Kontextverständnis und Echtzeit-Inferenz, wodurch sie zur Standard-Intelligenzschicht für Cybersicherheit und Automatisierung wurden.

29
ARTICLEDEV.to AI·4/18/2026

Statistics after the loss of innocence: New rigor in the age of AI

Dieser Artikel analysiert die Evolution der Statistik im Zeitalter der KI und plädiert für einen Übergang zu Hybridsystemen sowie die Betrachtung der Statistik als Ingenieurdisziplin. Er betont die Notwendigkeit des Schutzes klinischer Studien, robuster Berechnungsinfrastrukturen und neuer regulatorischer Leitlinien wie ICH E20 zur Risikobewältigung.

29
ARTICLEDEV.to AI·vor 27T

Lambda — Deep Dive

Lambda ist ein spezialisierter Anbieter von KI-Infrastruktur, der sich auf GPU-Computing und Machine-Learning-Tools konzentriert. Im Gegensatz zu allgemeinen Hyperscalern ist es die Mission des Unternehmens, nahtlose Übergänge von Prototypen zu massiven Produktions-Workloads für seine vielfältige Kundenbasis zu ermöglichen.

29
RESEARCHarXiv CS.LG·4/28/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Diese Arbeit behandelt den erheblichen Speicherbedarf von Key-Value (KV)-Caching in Transformer-Sprachmodellen und schlägt eine Optimierung entlang der Tiefen-Dimension vor. Sie stellt eine Methode zum schichtübergreifenden Cache-Sharing vor, die zeigt, dass das Löschen des Caches einer Schicht effizient ohne Informationsverlust sein kann, und schlägt einen Trainingsansatz mit zufälliger schichtübergreifender Aufmerksamkeit vor.

29
RESEARCHarXiv CS.LG·4/28/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Diese systematische Untersuchung der Singulärwertspektren während des Transformer-Vortrainings deckt drei Schlüsselphänomene auf: transiente Kompressionswellen und persistente spektrale Gradienten. Sie zeigt auch eine funktionale Q/K-V-Asymmetrie, bei der Query/Key-Projektionen die tiefenabhängige Dynamik steuern.

29
RESEARCHarXiv CS.LG·5/1/2026

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Diese Studie beleuchtet Deep-Learning-Methoden zur Subjekt-übergreifenden EEG-Dekodierung, die die Herausforderung hoher interindividueller Variabilität und Domänenverschiebung adressieren. Sie kategorisiert die Literatur in methodische Familien wie Feature-Alignment und kontrastives Lernen und betont rigorose Evaluierung und theoretische Überlegungen.

29
RESEARCHarXiv CS.LG·vor 19T

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite ist eine neuartige Prompt-Level-Sonde, die entwickelt wurde, um zu interpretieren, wie sich Sicherheitsnachweise in den Schichten großer Sprachmodelle entwickeln. Sie analysiert die Geometrie der Layer-weisen Margen mithilfe verschiedener Ausleseverfahren, um die Grenzbildung zu verstehen und verbessert die Sicherheitserkennung gegenüber Single-Layer-Sonden.

29
RESEARCHarXiv CS.LG·vor 17T

Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins

Diese Forschung stellt GOEN vor, eine neue Pipeline zur Erkennung von Out-of-Distribution (OOD)-Eingaben, die mehrskalige Merkmale und den Mahalanobis-Abstand kombiniert. Sie zeigt, dass CenterLoss die OOD-Erkennungsleistung überraschenderweise verschlechtert, wobei GOEN-NoCenterLoss hervorragende Ergebnisse erzielt.

29
RESEARCHarXiv CS.LG·vor 20T

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Dieses Papier schlägt ein skalierbares, adaptives Framework zur Verbesserung der raumzeitlichen Vorhersage vor, indem es räumliche und zeitliche Merkmalsdarstellungen harmonisiert. Es behandelt Engpässe bestehender Methoden durch räumliche und zeitliche Entropiemaße, um Komplexitätsungleichheiten und Vorhersageunsicherheiten zu begegnen.

29
RESEARCHarXiv CS.LG·vor 27T

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Dieses Papier stellt -DPO vor, eine direkte Präferenzoptimierung mittels Verhältnis-Belohnungsmarge, um die Herausforderung der Hyperparameter-Abstimmung in SimPO anzugehen. Die Forschung analysiert SimPO und reformuliert das Präferenzziel, um die Interpretierbarkeit über Datensätze mit unterschiedlichen Belohnungslückenstrukturen zu verbessern.

29
RESEARCHarXiv CS.LG·vor 27T

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Dieses Papier stellt das Convolutional Variational Deep Embedding (Conv-VaDE) Modell für die EEG-Mikrostatusanalyse vor. Es verbessert die Interpretierbarkeit, indem es gemeinsam topografische Rekonstruktion und probabilistisches Soft-Clustering lernt, was eine generative Dekodierung von Cluster-Prototypen in verifizierbare Kopfhauttopografien ermöglicht.

29
RESEARCHarXiv CS.LG·vor 20T

Simply Stabilizing the Loop via Fully Looped Transformer

Looped Transformer bieten eine Möglichkeit, die Modellleistung durch iterative Wiederverwendung von Blöcken ohne Erhöhung der Parameteranzahl zu verbessern, leiden jedoch unter Trainingsinstabilität bei höheren Schleifeniterationen. Diese Instabilität wird auf Gradientenoszillation und Restexplosion zurückgeführt, was zur Entwicklung des Fully Looped Transformer führte, der eine vollständig verschachtelte Architektur und Attention Injection einführt.

29
DOCDEV.to AI·vor 4T

<think>

Dieser Inhalt beschreibt den Global API-Dienst, der Zugang zu 184 KI-Modellen mit wettbewerbsfähigen Preisen bietet, wie DeepSeek V4 Flash für 0.25 $/M und GPT-4o. Er hebt Funktionen wie eine 99.9% SLA, 50 kostenlose Anfragen pro Minute und nie ablaufende Credits hervor, sowie Pro Channel-Optionen für fortgeschrittene Anforderungen.

28