← heapsort-ai

representation learning

23 items

RESEARCHarXiv CS.LG·1d atrás

Principles and Practice of Deep Representation Learning: or a Mathematical Theory of Memory

Este livro busca desmistificar grandes redes neurais e modelos generativos, frequentemente vistos como "caixas pretas", explorando seus mecanismos internos através da perspectiva da aprendizagem de representações. Ele descreve os princípios de design de arquiteturas de redes neurais modernas, usando otimização e teoria da informação.

60
RESEARCH↑ trendingReddit r/MachineLearning·30/04/2026

[R] Joint Embedding Variational Bayes (TMLR ’26)

Este artigo da TMLR introduz semântica variacional operacional para arquiteturas de embedding conjunto para aprendizagem de representação não contrastiva. Isso é feito fatorizando a verossimilhança do embedding, ancorando a incerteza posterior à escala da verossimilhança e usando uma verossimilhança Student-t de cauda pesada para benefícios empíricos.

42
ARTICLEDEV.to AI·11/04/2026

Sparse Federated Representation Learning for deep-sea exploration habitat design for low-power autonomous deployments

O autor explora o aprendizado federado para superar desafios de latência em dados volumosos de sensores de veículos autônomos multi-robóticos, buscando otimizar o processamento em ambientes de baixa largura de banda. A jornada pessoal começou com a frustração da sincronização de dados centralizada, levando à busca por uma abordagem fundamentalmente diferente de atualizações de modelos distribuídos.

29
RESEARCHarXiv CS.AI·27d atrás

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Este artigo de pesquisa revela que âncoras numéricas em imagens sistematicamente distorcem os julgamentos de qualidade de Modelos de Visão-Linguagem (VLMs). A análise camada por camada mostra que as camadas ótimas para previsão de qualidade são mais profundas do que aquelas onde a classificação da âncora satura, estabelecendo uma explicação causal para o viés de ancoragem visual.

29
RESEARCHarXiv CS.LG·5d atrás

Bayes-Sufficient Representations in Supervised Learning

Este trabalho define representações Bayes-suficientes para aprendizado supervisionado, focando na informação relevante para predição com base em um problema de decisão e função de perda fixos. Ele introduz o conceito de quociente de Bayes e conecta a estrutura à elicitação de propriedades, mostrando como diferentes funções de perda exigem ações Bayes-ótimas específicas.

28
RESEARCHarXiv CS.LG·21/04/2026

SetFlow: Generating Structured Sets of Representations for Multiple Instance Learning

Este trabalho apresenta SetFlow, uma arquitetura generativa que modela conjuntos inteiros de dados de Aprendizagem por Múltiplas Instâncias (MIL) diretamente no espaço de representação. Ele utiliza o paradigma de flow matching e um design inspirado em Set Transformer para capturar dependências intra-bag e gerar representações coerentes e semanticamente consistentes.

27
RESEARCHarXiv CS.LG·08/05/2026

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

Este manuscrito apresenta o Data Driven Variational Basis Learning (DVBL), uma nova estrutura não neural para aprender funções de base adaptativas a dados diretamente de dados de alta dimensão. Ele oferece uma alternativa explícita, interpretável e matematicamente transparente às redes neurais para aprendizado de representação, abordando suas limitações em controle e transparência.

27
RESEARCHarXiv CS.LG·13/04/2026

Distilling Genomic Models for Efficient mRNA Representation Learning via Embedding Matching

Este artigo apresenta um framework de destilação para tornar modelos de fundação genômicos grandes, focados no aprendizado de representação de mRNA, mais eficientes. Reduzindo o tamanho do modelo em 200 vezes através de destilação baseada em embeddings, o modelo menor alcança desempenho de ponta em tarefas relacionadas ao mRNA, destacando uma estratégia eficaz para IA biológica escalável.

27
RESEARCHarXiv CS.CL·05/05/2026

H-Probes: Extracting Hierarchical Structures From Latent Representations of Language Models

Este artigo introduz as H-probes, sondas lineares projetadas para extrair estrutura hierárquica, como profundidade e distância, das representações latentes de grandes modelos de linguagem. A pesquisa demonstra que essas sondas identificam subespaços de baixa dimensão que são cruciais para o desempenho em tarefas de travessia de árvores sintéticas e generalizam bem dentro e fora do domínio.

27
RESEARCHarXiv CS.LG·16/04/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Esta pesquisa investiga o fenômeno 'grokking' em transformadores, descobrindo que o longo atraso na generalização em modelos aritméticos resulta de um gargalo no decodificador. O codificador adquire conhecimento estrutural relevante precocemente, mas o decodificador tem dificuldade em acessá-lo, uma hipótese apoiada por intervenções causais como o transplante de codificadores.

27
RESEARCHarXiv CS.LG·25d atrás

A Unified Geometric Framework for Weighted Contrastive Learning

A aprendizagem contrastiva visa preservar a estrutura relacional em representações de amostras, refletindo um grafo de similaridade. Este artigo interpreta objetivos InfoNCE ponderados como Problemas de Geometria de Distância, oferecendo uma estrutura geométrica unificada e caracterizações exatas de embeddings ótimos, revelando como o desequilíbrio de classes afeta as similaridades interclasses no SupCon.

27
RESEARCHarXiv CS.LG·07/05/2026

Transformation Categorization Based on Group Decomposition Theory Using Parameter Division

Esta pesquisa explora a categorização não supervisionada de transformações entre pares de entradas usando restrições algébricas, buscando uma compreensão fundamentada de boas representações. Propõe a divisão de parâmetros para refinar métodos galois-teóricos anteriores, abordando sua dependência de suposições auxiliares e aprimorando a decomposição de grupos.

27
RESEARCHarXiv CS.LG·11d atrás

Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision

Esta pesquisa explora como modelos de mundo aprendem representações semânticas a partir da exploração física sem entrada linguística. Descobre-se que o espaço latente desenvolve estruturas semânticas espaciais que espelham a geometria física, com o alinhamento semântico melhorando junto com o desempenho da previsão.

27
RESEARCHarXiv CS.LG·12d atrás

Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey

Este artigo apresenta uma pesquisa que aborda os desafios da aprendizagem multimodal utilizando a arquitetura Mixture-of-Experts (MoE). O estudo explora como o MoE funciona como um motor eficiente e um aprendiz de representação para integrar diversas modalidades de dados. Ele preenche uma lacuna na literatura ao oferecer uma revisão sistemática e abrangente sobre o tema.

27