deep learning

263 items

RESEARCH↑ trendingReddit r/MachineLearning·3/5/2026

Struggling with Chebyshev Filter Integration in CNN — Any Advice? [R]

Un usuario tiene dificultades para integrar filtros Chebyshev en una arquitectura CNN para mejorar el rendimiento, señalando que los resultados actuales son similares a la línea de base. Busca consejos sobre la integración, ubicación y ajuste del filtro, y si otros han encontrado beneficios.

CNN deep learning feature extraction Chebyshev filter

NEWS↑ trendingReddit r/LocalLLaMA·22/4/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI ha lanzado en código abierto FlashKDA, un kernel CUTLASS C++ para Kimi Delta Attention, logrando mejoras de rendimiento de hasta 2.22x sobre la línea base de Triton en benchmarks H20. Esta implementación acelera arquitecturas de atención lineal.

Open Source deep learning Performance optimization attention mechanisms

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

NEWS↑ trendingReddit r/MachineLearning·24/4/2026

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]

Se ha lanzado un nuevo optimizador de PyTorch llamado 'Rose', que promete bajo uso de VRAM, convergencia rápida y excelente generalización, bajo licencia Apache 2.0. Desarrollado durante varios años, busca ser fácil de usar y más eficiente en memoria que AdamW de 8 bits.

deep learning machine learning VRAM Optimization optimizer

DOC↑ trendingReddit r/LocalLLaMA·27/4/2026

To 16GB VRAM users, plug in your old GPU

Este contenido sugiere que los usuarios con 16GB de VRAM añadan una GPU antigua (6GB+ VRAM) para aumentar el VRAM total, permitiendo ejecutar modelos LLM más grandes (~30b) incluso con una tarjeta secundaria más débil. Incluye un ejemplo de configuración práctica para `llama-server`.

deep learning GPU optimization LLM inference VRAM management

ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

LLMs learn backwards, and the scaling hypothesis is bounded. [D]

Este contenido discute la perspectiva de que los Large Language Models (LLMs) aprenden de manera inversa y que la hipótesis de escalabilidad tiene límites inherentes.

LLMs deep learning scaling hypothesis modelos de linguagem

ARTICLE↑ trendingReddit r/MachineLearning·19/4/2026

On the path towards a true science of deep learning [D]

Un científico con doble afiliación industrial y académica comparte ideas sobre el desarrollo de una teoría científica fundamental del aprendizaje automático, basada en aproximadamente siete años de trabajo. La publicación describe reflexiones sobre cómo lograr una verdadera ciencia del aprendizaje profundo.

research deep learning AI Theory machine learning

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Elastic Attention Cores for Scalable Vision Transformers [R]

Este artículo presenta los Núcleos de Atención Elásticos como un nuevo bloque de construcción para Vision Transformers escalables, abordando el alto costo de la autoatención densa. El enfoque utiliza una estructura de atención escasa por bloques de núcleo-periferia y dropout anidado para ajustes elásticos del costo de inferencia, logrando una precisión competitiva.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

RESEARCH↑ trendingReddit r/MachineLearning·hace 26d

Follow the Mean: Reference-Guided Flow Matching [R]

Este contenido se refiere a un artículo de investigación titulado "Follow the Mean: Reference-Guided Flow Matching". Explora una nueva metodología en modelos generativos.

deep learning generative models machine learning Flow Matching

Follow the Mean: Reference-Guided Flow Matching [R]

ARTICLE↑ trendingReddit r/MachineLearning·20/4/2026

MILA vs Polytechnique Montreal: reapply or move on? [D]

Un graduado en ingeniería mecánica con experiencia en desarrollo de software evalúa dos opciones de maestría profesional en IA: cursar un minor en ciencias de la computación para volver a aplicar a MILA o aceptar la oferta de Polytechnique Montréal. La decisión implica una ruta académica más larga para fortalecer fundamentos teóricos frente a iniciar la experiencia profesional antes.

education Career Development deep learning machine learning

RESEARCH↑ trendingReddit r/MachineLearning·hace 19d

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Esta discusión cuestiona si los Modelos de Lenguaje Visual (VLMs) en producción aún utilizan ViTs de parche fijo para sus capacidades de visión, a pesar de la existencia de métodos de tokenización más eficientes. Explora posibles razones para esto, como ganancias marginales, limitaciones de tubería o leyes de escala no claras para el "patching" adaptativo.

VLMs deep learning Vision Transformers Tokenization

RESEARCH↑ trendingReddit r/MachineLearning·6/5/2026

Transformers with Selective Access to Early Representations [R]

El artículo presenta SATFormer, una nueva variante de Transformer que mejora la eficiencia al permitir que los "heads" re-accedan selectivamente a representaciones tempranas en lugar de copiarlas uniformemente. Este mecanismo de "gating" dependiente del contexto optimiza la reutilización de información, ofreciendo un mejor equilibrio entre eficiencia y rendimiento.

AI architecture deep learning efficiency Transformers

Transformers with Selective Access to Early Representations [R]

RESEARCH↑ trendingReddit r/MachineLearning·17/4/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

El contenido detalla un problema persistente de baja precisión (~50%) al usar métodos de aprendizaje auto-supervisado como BYOL, MAE y VICReg para la detección de estrés en cultivos hiperespectrales. A pesar de probar varias técnicas, el rendimiento apenas supera el aleatorio para tres clases, lo que genera sospechas sobre la separabilidad de los datos o la idoneidad de los métodos SSL.

model performance Hyperspectral imaging deep learning self-supervised learning

NEWS↑ trendingReddit r/MachineLearning·26/4/2026

Introducing AutoMuon, a one line drop in for AdamW [P]

Se ha lanzado AutoMuon, un paquete de Python que permite usar el optimizador Muon como reemplazo directo de AdamW en PyTorch. Escanea el modelo para aplicar automáticamente el optimizador correcto a cada parámetro, utilizando Muon para matrices de peso y AdamW para otros componentes.

deep learning optimizer python-package PyTorch

ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

LLM Neuroanatomy III - LLMs seem to think in geometry, not language

Este artículo, parte de la serie "Neuroanatomía de LLMs", propone que los Grandes Modelos de Lenguaje procesan la información geométricamente, no lingüísticamente. Explora los mecanismos internos y la organización estructural de estos modelos avanzados de IA.

AI architecture LLMs deep learning Neuroscience

LLM Neuroanatomy III - LLMs seem to think in geometry, not language

RESEARCH↑ trendingReddit r/MachineLearning·14/4/2026

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

Esta investigación presenta la HALO-Loss, un método novedoso para entrenar redes neuronales para abstenerse de hacer predicciones cuando no están seguras. Permite que los modelos expresen "No lo sé" en lugar de dar respuestas potencialmente incorrectas, mejorando la fiabilidad.

neural networks model robustness deep learning machine learning

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

ARTICLE↑ trendingReddit r/LocalLLaMA·24/4/2026

Takeaways & discussion about the DeepSeek V4 architecture

Este artículo analiza las novedades arquitectónicas de DeepSeek V4, destacando su sistema de atención híbrida (CSA + HCA) y las Manifold-Constrained Hyper-Connections. También aborda el entrenamiento FP4 QAT a escala de frontera, diferenciándolo de modelos anteriores.

DeepSeek deep learning attention mechanisms quantization

CASE↑ trendingReddit r/MachineLearning·27/4/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Un usuario notó que la cuantificación INT8 en su modelo de aprendizaje profundo resultó en una mejor precisión de inferencia que FP16, lo cual fue inesperado. Busca explicaciones para el rendimiento superior de INT8 sobre FP16.

inference ONNX deep learning quantization

DOC↑ trendingReddit r/MachineLearning·16/4/2026

AI for Materials Science starter kit [D]

Un practicante de Deep Learning busca recursos como artículos, cursos y tutoriales para aprender sobre IA en Ciencia de Materiales. El objetivo es adquirir conocimientos suficientes para realizar investigaciones significativas en el área y contribuir a la comunidad, con un curso de UChicago ya identificado como referencia.

Materials Science deep learning computational chemistry cheminformatics

DOCDEV.to AI·23/4/2026

Redes Neuronales Convolucionales - Clasificacione de imagenes Landmarks

Este video explica el proceso para entrenar un modelo de red neuronal usando Redes Neuronales Convolucionales (CNN) para la clasificación de imágenes de hitos. Los interesados pueden probar o seguir el pipeline de entrenamiento disponible en el Github del autor.

neural networks deep learning image classification Convolutional Neural Networks

DOCDEV.to AI·hace 2d

Pytorch for Neural Networks Part 7: Training with Loss and Derivatives

Este artículo, parte de una serie de PyTorch, detalla el proceso de entrenamiento de redes neuronales demostrando una estructura de bucle anidado para iterar a través de los datos de entrenamiento. Explica cómo calcular la pérdida total, derivar la salida y aplicar la función de pérdida para la optimización del modelo usando `loss.backward()`.

neural networks deep learning learning Training