RESEARCH27
One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them
arXiv CS.LG·29 de maio de 2026
O artigo investiga os mecanismos internos de métodos de edição de conhecimento como ROME e MEMIT, descobrindo que edições diversas partilham uma estrutura funcional comum dependente de um subconjunto específico de pesos. Uma máscara binária sobre esses pesos reverte a maioria das edições ao eliminar a superatenção em camadas posteriores, provando a necessidade desse mecanismo para o sucesso das edições.
Ler original ↗