← heapsort-ai

Transformer Models

7 items

RESEARCHDEV.to AI·hace 25d

Shared expert pool reduces parameters while maintaining performance

Los diseños convencionales de Mixture-of-Experts aumentan los parámetros linealmente con la profundidad al asignar conjuntos de expertos privados a cada capa del transformador. Un nuevo enfoque, UniPool, lo reemplaza con un grupo de expertos único y compartido globalmente del que todos los enrutadores se benefician, reduciendo drásticamente el recuento total de parámetros de expertos mientras mantiene una calidad predictiva comparable.

29
RESEARCHarXiv CS.LG·hace 20d

Simply Stabilizing the Loop via Fully Looped Transformer

Los Transformers en Bucle ofrecen una forma de mejorar el rendimiento del modelo reutilizando bloques iterativamente sin aumentar el recuento de parámetros, pero sufren de inestabilidad en el entrenamiento con más iteraciones. Esta inestabilidad se atribuye a la oscilación de gradiente y la explosión residual, lo que llevó a la propuesta del Fully Looped Transformer, que introduce una Arquitectura Totalmente en Bucle y la Inyección de Atención.

29
RESEARCHarXiv CS.CL·7/4/2026

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

27
RESEARCHarXiv CS.LG·hace 11d

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

Este estudio examina los mecanismos internos de métodos de edición de conocimiento como ROME y MEMIT, revelando que ediciones diversas comparten una estructura funcional común basada en un subconjunto específico de pesos. Una máscara binaria sobre estos pesos revierte la mayoría de las ediciones al eliminar la sobreatención en capas posteriores, demostrando la necesidad de este mecanismo para el éxito de las ediciones.

27