← heapsort-ai

representation learning

23 items

RESEARCHarXiv CS.LG·hace 1d

Principles and Practice of Deep Representation Learning: or a Mathematical Theory of Memory

Este libro tiene como objetivo desmitificar las grandes redes profundas y los modelos generativos, a menudo percibidos como "cajas negras", explorando sus mecanismos internos a través de la lente del aprendizaje de representaciones. Describe cómo se diseñan las arquitecturas de redes neuronales modernas, utilizando la optimización y la teoría de la información.

60
RESEARCH↑ trendingReddit r/MachineLearning·30/4/2026

[R] Joint Embedding Variational Bayes (TMLR ’26)

Este artículo de TMLR introduce la semántica variacional operativa en arquitecturas de incrustación conjunta para el aprendizaje de representaciones no contrastivas. Lo logra factorizando la verosimilitud de incrustación, anclando la incertidumbre posterior a la escala de verosimilitud y utilizando una verosimilitud de Student-t de cola pesada para beneficios empíricos.

42
ARTICLEDEV.to AI·11/4/2026

Sparse Federated Representation Learning for deep-sea exploration habitat design for low-power autonomous deployments

El autor explora el aprendizaje federado para superar desafíos de latencia en datos voluminosos de sensores de vehículos autónomos multi-robóticos, optimizando el procesamiento en entornos de bajo ancho de banda. El enfoque busca una alternativa distribuida a la sincronización de datos centralizada, mediante actualizaciones de modelos distribuidos.

29
RESEARCHarXiv CS.AI·hace 27d

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Este artículo de investigación muestra que los anclajes numéricos incrustados en las imágenes sesgan sistemáticamente los juicios de calidad de los Modelos de Visión-Lenguaje (VLMs). El sondeo capa por capa revela que las capas óptimas para la predicción de calidad son más profundas que donde satura la clasificación del anclaje, estableciendo una explicación causal del sesgo de anclaje visual.

29
RESEARCHarXiv CS.LG·hace 5d

Bayes-Sufficient Representations in Supervised Learning

Este trabajo define representaciones Bayes-suficientes para el aprendizaje supervisado, centrándose en la información relevante para la predicción basada en un problema de decisión fijo y una función de pérdida. Introduce el concepto de cociente de Bayes y conecta el marco con la elicitación de propiedades, mostrando cómo diferentes funciones de pérdida requieren acciones Bayes-óptimas específicas.

28
RESEARCHarXiv CS.LG·21/4/2026

SetFlow: Generating Structured Sets of Representations for Multiple Instance Learning

Este trabajo presenta SetFlow, una arquitectura generativa que modela conjuntos completos de datos de Aprendizaje por Instancias Múltiples (MIL) directamente en el espacio de representación. Utiliza el paradigma de flow matching y un diseño inspirado en Set Transformer para capturar dependencias intra-bolsa y generar representaciones coherentes y semánticamente consistentes.

27
RESEARCHarXiv CS.LG·13/4/2026

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations

Este trabajo presenta la Soft Silhouette Loss, una nueva función de pérdida diferenciable para el aprendizaje profundo, inspirada en el coeficiente de silueta clásico. Su objetivo es aprender representaciones discriminativas que promuevan la compacidad intra-clase y la separación inter-clases de manera más eficiente que los métodos existentes.

27
RESEARCHarXiv CS.LG·8/5/2026

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

Este manuscrito introduce el Data Driven Variational Basis Learning (DVBL), un novedoso marco no neuronal para aprender funciones de base adaptativas a los datos directamente de datos de alta dimensión. Proporciona una alternativa explícita, interpretable y matemáticamente transparente a las redes neuronales para el aprendizaje de representaciones, abordando sus limitaciones en control y transparencia.

27
RESEARCHarXiv CS.LG·13/4/2026

Distilling Genomic Models for Efficient mRNA Representation Learning via Embedding Matching

Este artículo introduce un marco de destilación para hacer más eficientes los grandes modelos de fundación genómicos para el aprendizaje de representación de mRNA. Al reducir el tamaño del modelo en 200 veces mediante destilación a nivel de embeddings, el modelo más pequeño logra un rendimiento de vanguardia en tareas relacionadas con el mRNA, destacando una estrategia efectiva para la IA biológica escalable.

27
RESEARCHarXiv CS.CL·5/5/2026

H-Probes: Extracting Hierarchical Structures From Latent Representations of Language Models

Este artículo presenta las H-probes, sondas lineales diseñadas para extraer la estructura jerárquica, como la profundidad y la distancia, de las representaciones latentes de los grandes modelos de lenguaje. La investigación demuestra que estas sondas encuentran de manera robusta subespacios de baja dimensión cruciales para el rendimiento en tareas sintéticas de recorrido de árboles, generalizando bien dentro y fuera del dominio.

27
RESEARCHarXiv CS.LG·16/4/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Esta investigación estudia el fenómeno del 'grokking' en transformadores, hallando que el largo retraso en la generalización en modelos aritméticos proviene de un cuello de botella en el decodificador. El codificador adquiere conocimiento estructural relevante tempranamente, pero el decodificador lucha por acceder a él, una hipótesis respaldada por intervenciones causales como el trasplante de codificadores.

27
RESEARCHarXiv CS.LG·hace 25d

A Unified Geometric Framework for Weighted Contrastive Learning

El aprendizaje contrastivo busca preservar la estructura relacional en las representaciones de las muestras reflejando un grafo de similitud. Este trabajo interpreta los objetivos InfoNCE ponderados como Problemas de Geometría de Distancia, proporcionando un marco geométrico unificado y caracterizaciones exactas de embeddings óptimos, revelando cómo el desequilibrio de clases afecta las similitudes entre clases en SupCon.

27
RESEARCHarXiv CS.LG·7/5/2026

Transformation Categorization Based on Group Decomposition Theory Using Parameter Division

Esta investigación explora la categorización no supervisada de transformaciones entre pares de entradas utilizando restricciones algébricas, buscando una comprensión fundamentada de buenas representaciones. Propone la división de parámetros para refinar métodos galois-teóricos previos, abordando su dependencia de suposiciones auxiliares y mejorando la descomposición de grupos.

27
RESEARCHarXiv CS.LG·hace 11d

Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision

Esta investigación explora cómo los modelos de mundo aprenden representaciones semánticas a partir de la exploración física sin supervisión lingüística. Se encuentra que su espacio latente desarrolla una estructura semántica espacial que refleja la geometría física, y el alineamiento semántico mejora con el rendimiento predictivo.

27
RESEARCHarXiv CS.LG·hace 12d

Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey

Este artículo presenta una encuesta que aborda los desafíos del aprendizaje multimodal con la arquitectura Mixture-of-Experts (MoE). El estudio explora cómo MoE funciona como un motor eficiente y un aprendiz de representación para integrar diversas modalidades de datos. Llena un vacío en la literatura al ofrecer una revisión sistemática y exhaustiva sobre el tema.

27