← heapsort-ai

Neural Networks

137 items

RESEARCHDEV.to AI·4h atrás

Visualizing the Platonic Representation Hypothesis at a small scale - An elementary analysis on visual and semantic modalities.

Este artigo explora o impacto de diferentes modalidades na forma como os modelos de IA organizam e armazenam informações em seus espaços latentes. Inspirado na Hipótese de Representação Platônica, investiga se a convergência ocorre em pequena escala e em qual camada arquitetônica.

62
RESEARCH↑ trendingReddit r/MachineLearning·23/04/2026

8 inputs → 58 body params: putting a body-model forward pass inside the training loss [P]

Um pequeno modelo MLP prevê com precisão 58 parâmetros de forma corporal Anny a partir de 8 inputs de questionário, superando métodos existentes baseados em fotos e regressão linear. A função de perda de treinamento inovadora do modelo é fundamental para sua precisão superior, alcançando baixos erros absolutos médios para medições corporais cruciais.

43
RESEARCHarXiv CS.LG·1d atrás

Inverse Critical Experiment Design via Gradient Optimization and a Multigroup Attention-Based Neural Network Architecture

Esta pesquisa apresenta uma metodologia para o design inverso de experimentos críticos, essenciais para validar designs avançados de reatores nucleares. Ela emprega modelagem substituta de redes neurais profundas e otimização de gradiente não paramétrica para gerar geometrias experimentais que maximizam a similaridade neutrônica.

40
RESEARCHarXiv CS.LG·2d atrás

Making Brain-Computer Interfaces More Secure

Este estudo propõe uma arquitetura personalizada de Rede Neural Convolucional (CNN) leve para investigar a robustez adversarial em Interfaces Cérebro-Computador (BCIs) baseadas em EEG. O método é avaliado usando dois conjuntos de dados EEG e comparado com outros modelos CNN sob cenários de ataque adversarial para garantir a implantação confiável de BCIs.

33
RESEARCHarXiv CS.CL·2d atrás

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Pesquisadores descobriram que o desempenho de modelos de linguagem pode melhorar significativamente quando camadas mais profundas aprendem vetores de valor sem contexto, preservando informações de token originais. Isso elimina a necessidade de recomputar ou armazenar em cache persistentemente esses valores, uma vez que o componente dependente do contexto oferece pouco benefício adicional.

33
RESEARCHarXiv CS.LG·2d atrás

Spectral Asymptotics of Neural Network Loss Landscapes: An Exact Decomposition of the Curvature Exponent

Este artigo de pesquisa investiga o expoente de curvatura $\alpha$ em paisagens de perda de redes neurais, explicando sua variação entre diferentes tipos de camadas. Ele introduz a Decomposição de Alinhamento Espectral para conectar $\alpha$ ao alinhamento geométrico e deriva uma identidade de transferência espectral que relaciona $\alpha$, o decaimento de posto do gradiente e o expoente de decaimento do Hessiano.

33
RESEARCHarXiv CS.AI·3d atrás

Universal Quantum Transformer

O Universal Quantum Transformer (UQT) é uma nova arquitetura de computação quântica projetada para superar as dificuldades das redes neurais clássicas em lidar com simetrias matemáticas exatas. Ele utiliza propriedades físicas de sistemas multi-qubit para raciocínio matemático e algébrico preciso, demonstrando aprendizado perfeito em aritmética modular cíclica com um substrato compacto de 5 qubits.

32