← heapsort-ai

Dimensionality Reduction

4 items

RESEARCH↑ trendingReddit r/MachineLearning·09/04/2026

[P] PCA before truncation makes non-Matryoshka embeddings compressible: results on BGE-M3 [P]

O conteúdo explora a técnica de aplicar PCA antes da truncagem de dimensões para comprimir embeddings, demonstrando que esta abordagem preserva a qualidade dos vetores (similaridade de cosseno) muito melhor do que a truncagem ingênua, especialmente para modelos não Matryoshka como BGE-M3. A técnica também é comparada a outros métodos de compressão, como quantização, mostrando resultados competitivos em termos de desempenho e taxa de compressão.

43
RESEARCHarXiv CS.LG·21d atrás

AdaGraph: A Graph-Native Clustering Algorithm That Overcomes the Curse of Dimensionality and Enables Scientific Discovery

AdaGraph é um algoritmo de agrupamento nativo de grafos, nascido do paradigma Structure-Centric Machine Learning (SC-ML), que dissolve a maldição da dimensionalidade substituindo a computação baseada em geometria pela baseada em topologia. Ele opera inteiramente dentro da topologia de grafos kNN, não requer a especificação prévia do número de clusters e escala eficientemente.

27