← heapsort-ai

Dimensionality Reduction

4 items

RESEARCH↑ trendingReddit r/MachineLearning·9/4/2026

[P] PCA before truncation makes non-Matryoshka embeddings compressible: results on BGE-M3 [P]

O conteúdo explora a técnica de aplicar PCA antes da truncagem de dimensões para comprimir embeddings, demonstrando que esta abordagem preserva a qualidade dos vetores (similaridade de cosseno) muito melhor do que a truncagem ingênua, especialmente para modelos não Matryoshka como BGE-M3. A técnica também é comparada a outros métodos de compressão, como quantização, mostrando resultados competitivos em termos de desempenho e taxa de compressão.

43
RESEARCHarXiv CS.LG·hace 21d

AdaGraph: A Graph-Native Clustering Algorithm That Overcomes the Curse of Dimensionality and Enables Scientific Discovery

AdaGraph es un algoritmo de agrupamiento nativo de grafos, surgido del paradigma Structure-Centric Machine Learning (SC-ML), que disuelve la maldición de la dimensionalidad mediante la sustitución de la computación basada en geometría por la basada en topología. Funciona dentro de la topología de grafos kNN, no requiere la especificación previa del número de clusters y se escala de manera eficiente.

27