← heapsort-ai

Transformer Models

7 items

RESEARCHDEV.to AI·25d atrás

Shared expert pool reduces parameters while maintaining performance

Designs convencionais de Mixture-of-Experts aumentam os parâmetros linearmente com a profundidade, atribuindo conjuntos de especialistas privados a cada camada do transformador. Uma nova abordagem, UniPool, substitui isso por um pool de especialistas único e globalmente compartilhado do qual todos os roteadores se beneficiam, reduzindo drasticamente a contagem total de parâmetros de especialistas enquanto mantém uma qualidade preditiva comparável.

29
RESEARCHarXiv CS.LG·20d atrás

Simply Stabilizing the Loop via Fully Looped Transformer

Transformers em Loop oferecem uma alternativa para melhorar o desempenho do modelo reutilizando blocos iterativamente sem aumentar o número de parâmetros, mas sofrem de instabilidade no treinamento com mais iterações. Essa instabilidade é causada por oscilação de gradiente e explosão residual, o que levou à proposta do Fully Looped Transformer, que introduz uma Arquitetura Totalmente em Loop e Injeção de Atenção.

29
RESEARCHarXiv CS.CL·07/04/2026

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

27
RESEARCHarXiv CS.LG·11d atrás

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

O artigo investiga os mecanismos internos de métodos de edição de conhecimento como ROME e MEMIT, descobrindo que edições diversas partilham uma estrutura funcional comum dependente de um subconjunto específico de pesos. Uma máscara binária sobre esses pesos reverte a maioria das edições ao eliminar a superatenção em camadas posteriores, provando a necessidade desse mecanismo para o sucesso das edições.

27