← heapsort-ai

deep learning

263 items

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Elastic Attention Cores for Scalable Vision Transformers [R]

Este artículo presenta los Núcleos de Atención Elásticos como un nuevo bloque de construcción para Vision Transformers escalables, abordando el alto costo de la autoatención densa. El enfoque utiliza una estructura de atención escasa por bloques de núcleo-periferia y dropout anidado para ajustes elásticos del costo de inferencia, logrando una precisión competitiva.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
ARTICLE↑ trendingReddit r/MachineLearning·20/4/2026

MILA vs Polytechnique Montreal: reapply or move on? [D]

Un graduado en ingeniería mecánica con experiencia en desarrollo de software evalúa dos opciones de maestría profesional en IA: cursar un minor en ciencias de la computación para volver a aplicar a MILA o aceptar la oferta de Polytechnique Montréal. La decisión implica una ruta académica más larga para fortalecer fundamentos teóricos frente a iniciar la experiencia profesional antes.

42
RESEARCH↑ trendingReddit r/MachineLearning·hace 19d

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Esta discusión cuestiona si los Modelos de Lenguaje Visual (VLMs) en producción aún utilizan ViTs de parche fijo para sus capacidades de visión, a pesar de la existencia de métodos de tokenización más eficientes. Explora posibles razones para esto, como ganancias marginales, limitaciones de tubería o leyes de escala no claras para el "patching" adaptativo.

42
RESEARCH↑ trendingReddit r/MachineLearning·6/5/2026

Transformers with Selective Access to Early Representations [R]

El artículo presenta SATFormer, una nueva variante de Transformer que mejora la eficiencia al permitir que los "heads" re-accedan selectivamente a representaciones tempranas en lugar de copiarlas uniformemente. Este mecanismo de "gating" dependiente del contexto optimiza la reutilización de información, ofreciendo un mejor equilibrio entre eficiencia y rendimiento.

Transformers with Selective Access to Early Representations [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·17/4/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

El contenido detalla un problema persistente de baja precisión (~50%) al usar métodos de aprendizaje auto-supervisado como BYOL, MAE y VICReg para la detección de estrés en cultivos hiperespectrales. A pesar de probar varias técnicas, el rendimiento apenas supera el aleatorio para tres clases, lo que genera sospechas sobre la separabilidad de los datos o la idoneidad de los métodos SSL.

42