deep learning

263 items

RESEARCH↑ trendingHacker News (AI)·hace 5h

Yann LeCun: World Models: Enabling the Next AI Revolution [video]

Este video presenta a Yann LeCun discutiendo "Modelos del Mundo", una arquitectura prometedora para la próxima generación de IA. Explora cómo estos modelos pueden permitir que las máquinas aprendan a predecir e interactuar con su entorno, dando lugar a sistemas de IA más inteligentes y versátiles.

future-of-AI AI models deep learning machine learning

RESEARCHarXiv CS.LG·hace 1d

Multi-Scale Feature Attention Network for Polymer Classification using THz Dual-Comb Spectroscopy

Esta investigación propone la Multi-Scale Feature Attention Network (MSFAN), una nueva arquitectura de aprendizaje profundo para clasificar 12 tipos de polímeros utilizando Espectroscopia de Peine Dual de Terahercios (THz-DCS). El marco aborda la identificación fiable de polímeros para plásticos reciclados, integrando el filtrado de características y convoluciones paralelas de múltiples escalas.

polymer classification deep learning spectroscopy

RESEARCHarXiv CS.LG·hace 1d

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

El artículo presenta WAV v1, un método ligero de enrutamiento residual multirresolución para Transformers solo con decodificador. Mejora las conexiones residuales estándar al aumentar cada bloque con bases de detalle direccionales que contrastan las actualizaciones de atención y MLP, y las dinámicas de subcapas tempranas y tardías.

Residual Connections neural networks deep learning Model Architecture

RESEARCHarXiv CS.LG·hace 1d

Principles and Practice of Deep Representation Learning: or a Mathematical Theory of Memory

Este libro tiene como objetivo desmitificar las grandes redes profundas y los modelos generativos, a menudo percibidos como "cajas negras", explorando sus mecanismos internos a través de la lente del aprendizaje de representaciones. Describe cómo se diseñan las arquitecturas de redes neuronales modernas, utilizando la optimización y la teoría de la información.

neural networks deep learning learning generative models

ARTICLEHugging Face (YouTube)·hace 10h

What Is ONNX? (And Why Transformers.js Uses It)

ONNX (Open Neural Network Exchange) es un estándar abierto que define un formato de grafo común para modelos de aprendizaje automático, lo que permite la interoperabilidad entre varios marcos de ML. Transformers.js aprovecha ONNX para ejecutar modelos transformadores preentrenados directamente en el navegador, proporcionando capacidades eficientes y agnósticas de plataforma para la inferencia de IA en aplicaciones web.

AI models ONNX deep learning machine learning

What Is ONNX? (And Why Transformers.js Uses It)

RESEARCHDEV.to AI·hace 16h

Quality of Uncertainty Quantification for Bayesian Neural Network Inference

Este contenido explora el aspecto crítico de evaluar la calidad de la cuantificación de la incertidumbre específicamente en la inferencia de Redes Neuronales Bayesianas. Probablemente profundiza en metodologías para evaluar y mejorar la fiabilidad de las estimaciones de incertidumbre predictiva en modelos de IA.

deep learning Uncertainty Quantification machine learning AI

RESEARCHarXiv CS.LG·hace 19h

MedicalRec: Medical recommender system for image classification without retraining

Este estudio presenta MedicalRec, un sistema de recomendación médica para la clasificación de imágenes, que busca optimizar la selección de modelos sin necesidad de reentrenamiento. Aborda los desafíos computacionales y energéticos de la identificación de modelos mediante un conjunto de datos público, MedicalRec-Bench, recopilado de 3.000 artículos y más de 5.000 registros de modelos probados.

recommender systems deep learning machine learning healthcare AI

RESEARCHarXiv CS.LG·hace 19h

TriHead-GAN: A Generative Adversarial Network with Triple-Head Discriminator for Carbon Emission Time Series Generation

TriHead-GAN propone una Red Generativa Adversarial basada en Transformer con un discriminador de triple cabezal para abordar la escasez de datos de emisiones de carbono a nivel de ciudad. Este marco mejora la generación de series de tiempo al preservar mejor las correlaciones entre variables y la variabilidad realista en comparación con los modelos existentes.

deep learning Carbon Emissions Time Series Analysis Climate AI

RESEARCHarXiv CS.LG·hace 19h

STARIXNet: Multivariate and Multi-attribute Deep Learning Approach to Real-Time Resource Allocation in Cloud Platforms

El artículo presenta STARIXNet, una red neuronal ligera para la asignación de recursos en plataformas en la nube, abordando las limitaciones de las soluciones actuales univariadas que ignoran los riesgos de subestimación y retrasos. Este enfoque de aprendizaje profundo captura relaciones espacio-temporales y múltiples atributos para guiar decisiones inteligentes de escalado de microservicios.

neural networks microservices deep learning cloud computing

RESEARCHarXiv CS.AI·hace 19h

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem es un marco de streaming eficiente en memoria para LLMs audiovisuales, diseñado para superar las limitaciones de la inferencia de video largo debido al aumento de tokens y cachés KV. Emplea asignación de memoria consciente de la modalidad y selección de memoria sensible a perturbaciones para preservar estados KV informativos, mejorando la compresión y la comprensión a largo plazo.

LLMs Audio-Visual AI deep learning Streaming

RESEARCHDEV.to AI·hace 2d

DurIAN: Duration Informed Attention Network For Multimodal Synthesis

DurIAN es una Red de Atención Informada por Duración para la síntesis multimodal. Este trabajo se centra en la arquitectura de un modelo de IA diseñado para generar salidas coherentes y sincronizadas a través de múltiples modalidades.

attention networks multimodal AI deep learning speech synthesis

NEWS↑ trendingHacker News (AI)·hace 3d

AI Memory Proves Inefficient: Tenure Project Detects 95% Error Rate

Un proyecto reciente detectó una tasa de error del 95% en la memoria de la IA, lo que demuestra su ineficiencia. Este hallazgo genera importantes preocupaciones sobre la fiabilidad y el rendimiento de los sistemas de inteligencia artificial.

Error Rate research deep learning AI Efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Se lanza un nuevo libro y código fuente abierto, que detalla cómo construir arquitecturas LLM modernas como GPT-2, Llama 3 y DeepSeek desde cero en PyTorch. Explica los cambios arquitectónicos para transformar GPT-2 en Llama 3 e implementa las características avanzadas de DeepSeek.

Open Source deep learning Transformer Models PyTorch

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Video of how my LLM's decoder blocks changed while training

Este contenido presenta un vídeo que muestra cómo cambiaron los bloques del decodificador de un LLM durante el entrenamiento, como continuación de una publicación popular anterior. El autor comparte datos visuales para ilustrar el proceso de evolución del modelo.

neural networks deep learning Training decoder blocks

Video of how my LLM's decoder blocks changed while training

ARTICLEDEV.to AI·hace 1d

Building a Multilayer Perceptron from Scratch: What It Taught Me About Neural Networks

El autor construyó un Perceptrón Multicapa (MLP) desde cero utilizando NumPy para obtener una comprensión profunda de la mecánica de las redes neuronales, como la retropropagación y el cálculo de gradientes. Este proyecto mejoró significativamente su comprensión de cómo los modelos de aprendizaje profundo aprenden patrones significativos.

neural networks deep learning learning Python

ARTICLE↑ trendingReddit r/MachineLearning·11/4/2026

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

Un repositorio PyTorch actualizado presenta implementaciones educativas de las versiones FA1 a FA4 de FlashAttention. El objetivo es demostrar las diferencias y la evolución algorítmica del método, facilitando la comprensión de sus ideas de diseño sin profundizar en detalles de hardware.

FlashAttention deep learning Attention Mechanism Algorithms

RESEARCH↑ trendingReddit r/MachineLearning·18/4/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

Es una biblioteca unificada de PyTorch para aprendizaje profundo de nubes de puntos 3D, que soporta 56 configuraciones listas para usar y validación cruzada integrada. LIDARLearn también automatiza la generación de PDF LaTeX listos para publicación después del entrenamiento, siendo ideal para investigadores en visión artificial 3D y teledetección.

Open Source deep learning computer vision 3d-point-cloud

We’re proud to open-source LIDARLearn [R] [D] [P]

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un desarrollador entrenó modelos de deep learning basados en transformadores para jugar ajedrez como humanos en varios rangos de rating, incluyendo la predicción del tiempo de pensamiento. Los modelos fueron entrenados con datos de Lichess y lograron una precisión comparable a MAIA-3, a pesar de su pequeño tamaño.

AI models deep learning chess AI model training

ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Este repositorio educativo de PyTorch implementa varias técnicas de paralelismo para el entrenamiento distribuido, como DP, FSDP, TP y PP, desde cero. Expone la lógica de forward/backward y los colectivos explícitamente, permitiendo comprender directamente los algoritmos y patrones de comunicación sin abstracciones de alto nivel.

distributed training FSDP deep learning Parallelism

NEWS↑ trendingReddit r/LocalLLaMA·23/4/2026

Deepseek has released DeepEP V2 and TileKernels.

Deepseek ha lanzado DeepEP V2 y TileKernels. Estos proyectos, disponibles en GitHub, representan nuevos desarrollos en sus ofertas de software relacionadas con la IA.

Open Source deep learning AI development