← heapsort-ai

Transformers

56 items

RESEARCHarXiv CS.CL·vor 6T

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Forscher haben herausgefunden, dass die Leistung von Sprachmodellen erheblich verbessert werden kann, wenn tiefere Schichten kontextfreie Wertvektoren lernen, die die ursprünglichen Token-Informationen bewahren. Dies macht eine Neuberechnung oder persistente Speicherung dieser Werte überflüssig, da die kontextabhängige Komponente nur geringen zusätzlichen Nutzen bietet.

27
RESEARCHarXiv CS.LG·4/6/2026

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

FTimeXer é um Transformer de séries temporais com consciência de frequência proposto para previsão robusta da pegada de carbono da rede elétrica. Ele aborda a não-estacionariedade e entradas exógenas irregulares através de uma ramificação de frequência baseada em FFT e um esquema de treinamento robusto.

27
RESEARCHarXiv CS.AI·4/23/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Diese Studie untersucht Datenaugmentierungsstrategien zur Verbesserung der auf Transformatoren basierenden Textklassifikation für die automatisierte Bewertung wissenschaftlicher Erklärungen von Schülern, um das Problem der Klassenungleichheit anzugehen. Sie bewertet Methoden wie von GPT-4 generierte Antworten, EASE und ALP im Vergleich zu einer SciBERT-Baseline, basierend auf einem Datensatz von 1.466 High-School-Antworten.

27
NEWSTogether AI Blog·3/17/2026

Mamba-3

Mamba-3 wird als neues Open-Source State Space Model (SSM) vorgestellt, das für Inferenz entwickelt wurde. Es bietet überragende Leistung, ist beim Dekodieren schneller als Transformers und stärker als Mamba-2.

27
ARTICLEDEV.to AI·4/13/2026

Transformers — Deep Dive + Problem: Pacific Atlantic Water Flow

Dieser Inhalt bietet täglich einen tiefen Einblick in maschinelle Lernthemen, wobei der Fokus auf dem Transformer-Modell aus dem Kapitel NLP-Grundlagen liegt. Er erklärt die Rolle des Transformers bei der Verarbeitung sequenzieller Daten, seine Fähigkeit, Informationen parallel zu verarbeiten, und seine Bedeutung für Aufgaben wie Sprachübersetzung, Textzusammenfassung und Stimmungsanalyse.

24