Neural Networks

137 items

RESEARCHDEV.to AI·4h atrás

Visualizing the Platonic Representation Hypothesis at a small scale - An elementary analysis on visual and semantic modalities.

Este artigo explora o impacto de diferentes modalidades na forma como os modelos de IA organizam e armazenam informações em seus espaços latentes. Inspirado na Hipótese de Representação Platônica, investiga se a convergência ocorre em pequena escala e em qual camada arquitetônica.

Latent Space Neural Networks AI models Mechanistic Interpretability

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Video of how my LLM's decoder blocks changed while training

Este conteúdo apresenta um vídeo que demonstra as mudanças nos blocos do decodificador de um LLM durante o treinamento, como uma continuação de uma postagem popular anterior. O autor compartilha dados visuais para ilustrar o processo de evolução do modelo.

Neural Networks deep learning Training decoder blocks

Video of how my LLM's decoder blocks changed while training

RESEARCH↑ trendingReddit r/MachineLearning·23/04/2026

8 inputs → 58 body params: putting a body-model forward pass inside the training loss [P]

Um pequeno modelo MLP prevê com precisão 58 parâmetros de forma corporal Anny a partir de 8 inputs de questionário, superando métodos existentes baseados em fotos e regressão linear. A função de perda de treinamento inovadora do modelo é fundamental para sua precisão superior, alcançando baixos erros absolutos médios para medições corporais cruciais.

Neural Networks body modeling Performance Metrics Machine Learning

RESEARCH↑ trendingReddit r/MachineLearning·20/04/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

O autor implementou e disponibilizou duas ideias recentes, Cartridges e STILL, para compactação de KV-cache neural e inferência de longo contexto. O objetivo é facilitar a inspeção e execução dessas ideias com código aberto e benchmarks, que também comparam com métodos existentes.

Neural Networks open-source research Memory Optimization

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

Esta pesquisa introduz a HALO-Loss, um método inovador para treinar redes neurais a se absterem de fazer previsões quando incertas. Permite que os modelos expressem "Eu não sei" em vez de fornecerem respostas potencialmente incorretas, melhorando a confiabilidade.

Neural Networks model robustness deep learning Machine Learning

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

RESEARCHarXiv CS.LG·1d atrás

Inverse Critical Experiment Design via Gradient Optimization and a Multigroup Attention-Based Neural Network Architecture

Esta pesquisa apresenta uma metodologia para o design inverso de experimentos críticos, essenciais para validar designs avançados de reatores nucleares. Ela emprega modelagem substituta de redes neurais profundas e otimização de gradiente não paramétrica para gerar geometrias experimentais que maximizam a similaridade neutrônica.

Neural Networks optimization nuclear engineering Machine Learning

RESEARCHarXiv CS.LG·1d atrás

Unlocking Feature Learning in Gated Delta Networks at Scale

Este artigo explora a derivação de regras de escala para Redes Gated Delta, visando otimizar o treinamento de Large Language Models. Experimentos confirmam que as configurações propostas permitem a transferência estável da taxa de aprendizado em diferentes larguras de modelo.

Neural Networks learning Hyperparameter Tuning Machine Learning

RESEARCHarXiv CS.LG·1d atrás

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant é uma nova estrutura para controle contínuo da largura de bits em Large Language Models, superando as limitações da quantização baseada em inteiros. Ele utiliza um mecanismo de "elevar e projetar" para ajuste quase contínuo da largura de bits para uma implantação ideal.

Model Compression Neural Networks LLMs deep learning

DOCDEV.to AI·23/04/2026

Redes Neuronales Convolucionales - Clasificacione de imagenes Landmarks

Neste vídeo, o autor explica o pipeline para treinar um modelo de rede neural usando Redes Neurais Convolucionais (CNN) para classificação de imagens de marcos. Os interessados podem seguir o pipeline de treinamento e testar o modelo no Github do autor.

Neural Networks deep learning image classification Convolutional Neural Networks

RESEARCHDEV.to AI·23/04/2026

Survey of Dropout Methods for Deep Neural Networks

Este conteúdo é uma pesquisa aprofundada sobre os diversos métodos de dropout utilizados em redes neurais profundas. Ele explora como essas técnicas de regularização ajudam a prevenir o overfitting e a melhorar a generalização dos modelos de IA.

Neural Networks deep learning Machine Learning regularization

ARTICLE↑ trendingReddit r/MachineLearning·13/04/2026

Implementation details of Backpropagation in Siamese networks. [D]

O usuário busca esclarecimentos sobre a implementação correta da retropropagação em redes Siamese, comparando uma abordagem de entrada sequencial com um método semelhante a um bi-encoder que envolve agregação de pesos. Ele pede ajuda para determinar qual implementação está correta.

implementation details Neural Networks deep learning siamese networks

RESEARCHDEV.to AI·22/04/2026

mHC: Manifold-Constrained Hyper-Connections

Este conteúdo apresenta mHC, ou Hyper-Conexões Restritas a Variedades, uma abordagem inovadora provavelmente no campo da aprendizagem de máquina ou teoria dos grafos. Sugere um método que integra a aprendizagem de variedades com estruturas de hipergrafos para representação ou modelagem de dados aprimorada.

Neural Networks Machine Learning hypergraphs Manifold Learning

RESEARCHarXiv CS.AI·17/04/2026

Mistake gating leads to energy and memory efficient continual learning

Este trabalho propõe a 'aprendizagem com portão de erro memorizado', uma regra de plasticidade biológica que atualiza sinapses apenas em caso de erros de classificação. Isso reduz o número de atualizações da rede em 50% a 80%, otimizando a eficiência energética e de memória em aprendizado contínuo e online.

Neural Networks Efficiency learning algorithms Continual Learning

RESEARCHarXiv CS.AI·22/04/2026

Quantum inspired qubit qutrit neural networks for real time financial forecasting

Este estudo compara Redes Neurais Artificiais (ANNs), Redes Neurais Quânticas baseadas em Qubits (QQBNs) e Qutrits (QQTNs) para previsão de ações. A QQTN superou consistentemente os outros modelos em métricas financeiras e de desempenho, com tempos de treinamento significativamente reduzidos.

Quantum Computing Neural Networks Machine Learning financial forecasting

ARTICLEDEV.to AI·21/04/2026

Gemini 3.1 Flash Live: Making audio AI more natural and reliable

Este artigo analisa tecnicamente o Gemini 3.1 Flash Live da DeepMind, um modelo de IA de áudio que foca em gerar som natural e confiável em tempo real. Ele utiliza uma nova arquitetura Flash, combinando redes neurais convolucionais e recorrentes, além de WaveNet e HiFi-GAN, para processamento eficiente.

Neural Networks audio-ai DeepMind Gemini

RESEARCHarXiv CS.LG·2d atrás

Making Brain-Computer Interfaces More Secure

Este estudo propõe uma arquitetura personalizada de Rede Neural Convolucional (CNN) leve para investigar a robustez adversarial em Interfaces Cérebro-Computador (BCIs) baseadas em EEG. O método é avaliado usando dois conjuntos de dados EEG e comparado com outros modelos CNN sob cenários de ataque adversarial para garantir a implantação confiável de BCIs.

Neural Networks brain-computer interfaces security Machine Learning

RESEARCHarXiv CS.CL·2d atrás

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Pesquisadores descobriram que o desempenho de modelos de linguagem pode melhorar significativamente quando camadas mais profundas aprendem vetores de valor sem contexto, preservando informações de token originais. Isso elimina a necessidade de recomputar ou armazenar em cache persistentemente esses valores, uma vez que o componente dependente do contexto oferece pouco benefício adicional.

Neural Networks LLMs deep learning Attention Mechanism

RESEARCHarXiv CS.LG·2d atrás

Spectral Asymptotics of Neural Network Loss Landscapes: An Exact Decomposition of the Curvature Exponent

Este artigo de pesquisa investiga o expoente de curvatura $\alpha$ em paisagens de perda de redes neurais, explicando sua variação entre diferentes tipos de camadas. Ele introduz a Decomposição de Alinhamento Espectral para conectar $\alpha$ ao alinhamento geométrico e deriva uma identidade de transferência espectral que relaciona $\alpha$, o decaimento de posto do gradiente e o expoente de decaimento do Hessiano.

Neural Networks Hessian Spectral Analysis Loss Landscapes

ARTICLEDEV.to AI·22/04/2026

Blog 1: Foundations of Gradient Descent

Este artigo explica o Gradiente Descendente como o algoritmo de otimização fundamental para redes neurais, detalhando como ele minimiza iterativamente uma função de perda. Utiliza a analogia de uma pessoa vendada em terreno montanhoso para ilustrar o conceito central.

Neural Networks Gradient Descent optimization Machine Learning

RESEARCHarXiv CS.AI·3d atrás

Universal Quantum Transformer

O Universal Quantum Transformer (UQT) é uma nova arquitetura de computação quântica projetada para superar as dificuldades das redes neurais clássicas em lidar com simetrias matemáticas exatas. Ele utiliza propriedades físicas de sistemas multi-qubit para raciocínio matemático e algébrico preciso, demonstrando aprendizado perfeito em aritmética modular cíclica com um substrato compacto de 5 qubits.

Quantum Computing Neural Networks AI architecture Machine Learning