← heapsort-ai

Transformers

56 items

RESEARCHarXiv CS.CL·6d atrás

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Pesquisadores descobriram que o desempenho de modelos de linguagem pode melhorar significativamente quando camadas mais profundas aprendem vetores de valor sem contexto, preservando informações de token originais. Isso elimina a necessidade de recomputar ou armazenar em cache persistentemente esses valores, uma vez que o componente dependente do contexto oferece pouco benefício adicional.

27
RESEARCHarXiv CS.LG·06/04/2026

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

FTimeXer é um Transformer de séries temporais com consciência de frequência proposto para previsão robusta da pegada de carbono da rede elétrica. Ele aborda a não-estacionariedade e entradas exógenas irregulares através de uma ramificação de frequência baseada em FFT e um esquema de treinamento robusto.

27
RESEARCHarXiv CS.AI·23/04/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Este estudo investiga estratégias de aumento de dados para melhorar a classificação de texto baseada em transformadores na pontuação automatizada de explicações científicas de alunos, visando o desequilíbrio de classes. Ele avalia métodos como respostas geradas por GPT-4, EASE e ALP contra uma linha de base SciBERT, usando um conjunto de dados de 1.466 respostas de ensino médio.

27
NEWSTogether AI Blog·17/03/2026

Mamba-3

Mamba-3 é apresentado como um novo Modelo de Espaço de Estados (SSM) de código aberto, otimizado para inferência. Ele se destaca por ser mais rápido que os Transformers na decodificação e mais potente que seu predecessor, Mamba-2.

27