data science

53 items

CASE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen 3.6 27B is a BEAST

Un usuario informa que Qwen 3.6 27B, ejecutado localmente en una computadora portátil, sobresale en tareas de ciencia de datos como llamadas a herramientas y depuración de transformación de datos. Su rendimiento fue tan impresionante que están considerando cancelar las suscripciones a la nube, encontrándolo perfecto para trabajos con pyspark/python.

local inference Benchmarking data science LLM

RESEARCH↑ trendingReddit r/MachineLearning·23/4/2026

8 inputs → 58 body params: putting a body-model forward pass inside the training loss [P]

Un pequeño modelo MLP predice con precisión 58 parámetros de forma corporal Anny a partir de 8 entradas de cuestionario, superando los métodos existentes basados en fotos y regresión lineal. La innovadora función de pérdida de entrenamiento del modelo es clave para su precisión superior, logrando errores absolutos medios bajos para mediciones corporales críticas.

neural networks body modeling Performance Metrics machine learning

ARTICLE↑ trendingHacker News (AI)·hace 13d

Training our own AI models

Este artículo aborda el proceso y las consideraciones para entrenar modelos de IA personalizados. Explora los desafíos y beneficios de desarrollar capacidades internas de inteligencia artificial.

AI training machine learning data science custom models

NEWS↑ trendingReddit r/MachineLearning·8/4/2026

Free tool I built to score dataset quality (LQS) — feedback welcome [D]

Foi desenvolvida e lançada uma ferramenta gratuita para avaliar a qualidade de datasets (LQS), permitindo fazer upload de dados e obter uma pontuação detalhada em 7 dimensões. A ferramenta suporta formatos comuns de ML e busca feedback de profissionais sobre sua metodologia e relevância.

dataset-quality machine learning data science AI tools

ARTICLEDEV.to AI·hace 3d

<think>

Este artículo compara las APIs de IA de código abierto con el autoalojamiento de modelos para pequeñas prácticas de ciencia de datos, analizando costos y viabilidad. Ofrece la perspectiva de un científico de datos sobre la elección del enfoque óptimo.

Open Source self-hosting data science Cost Optimization

DOCDEV.to AI·16/4/2026

Setting Up JupyterHub on a Cloud GPU Server

Esta guía detalla la configuración de JupyterHub en un servidor GPU en la nube para habilitar entornos colaborativos y multiusuario para proyectos de IA. Explica cómo JupyterHub gestiona servidores de cuadernos Jupyter individuales, proporcionando acceso compartido a una potencia computacional significativa.

Cloud GPU machine learning data science AI

DOCDEV.to AI·hace 3d

Decision Trees — A Beginner Technical Guide

Los Árboles de Decisión son modelos intuitivos de aprendizaje automático que imitan los procesos de toma de decisiones humanas mediante una secuencia de preguntas de sí/no. Son fundamentales no solo como modelos independientes, sino también como base para algoritmos más potentes en el aprendizaje automático moderno.

decision trees learning machine learning data science

ARTICLEDEV.to AI·hace 4d

<think>

Un científico de datos explora la optimización de costos en modelos de lenguaje grandes, detallando comparaciones de precios de API para modelos como GPT-4o, DeepSeek y Qwen. El artículo demuestra cómo el uso estratégico de una plataforma de API unificada puede generar ahorros significativos, presentando datos estadísticos y ejemplos prácticos.

AI pricing data science API Cost Optimization

DOCAWS Machine Learning Blog·hace 21d

Accelerate ML feature pipelines with new capabilities in Amazon SageMaker Feature Store

Amazon anuncia tres nuevas capacidades en SageMaker Python SDK v3.8.0 para acelerar los pipelines de características de ML. La publicación proporciona ejemplos de código y enlaces a cuadernos para tutoriales completos, que cubren la gobernanza de Lake Formation y las propiedades de las tablas de Iceberg.

machine learning data science Python SDK Feature Store

RESEARCHDEV.to AI·hace 5d

Hierarchical Clustering Based on Mutual Information

Este contenido describe un método de agrupamiento jerárquico que aprovecha la información mutua. Explora cómo la información mutua puede aplicarse para construir una estructura de agrupamiento robusta y eficaz.

Mutual Information machine learning data science Hierarchical Clustering

ARTICLEKDNuggets·hace 5d

What the Agentic Era Means for Data Science

Este artículo explora cómo los agentes de IA están redefiniendo los flujos de trabajo de la ciencia de datos y las habilidades que los profesionales necesitarán en 2026.

future-of-work workflow automation learning data science

What the Agentic Era Means for Data Science

RESEARCHDEV.to AI·22/4/2026

Algorithms, Initializations, and Convergence for the Nonnegative MatrixFactorization

Este contenido profundiza en la Factorización de Matrices No Negativas (NMF), examinando algoritmos, estrategias de inicialización y su convergencia. Ofrece un análisis detallado de cómo estos factores influyen en el rendimiento y la estabilidad de las soluciones NMF.

machine learning data science Algorithms

DOCDEV.to AI·25/4/2026

Pandas DataFrames: Your Data Spreadsheet

El contenido explica que los DataFrames de Pandas son esenciales para manejar datos del mundo real en IA y ciencia de datos, funcionando como una hoja de cálculo etiquetada en contraste con las cuadrículas de números de NumPy. Define un DataFrame como una tabla con filas y columnas etiquetadas y proporciona un ejemplo en Python.

Pandas DataFrames NumPy data science

RESEARCHDEV.to AI·12/4/2026

A Neural Network based Approach for Predicting Customer Churn in CellularNetwork Services

Este trabajo propone un enfoque basado en redes neuronales para predecir la rotación de clientes en servicios de redes celulares. El objetivo es identificar patrones de comportamiento de los usuarios para anticipar el abandono del servicio.

Telecommunications machine learning data science customer churn prediction

RESEARCHarXiv CS.LG·8/5/2026

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

Este manuscrito introduce el Data Driven Variational Basis Learning (DVBL), un novedoso marco no neuronal para aprender funciones de base adaptativas a los datos directamente de datos de alta dimensión. Proporciona una alternativa explícita, interpretable y matemáticamente transparente a las redes neuronales para el aprendizaje de representaciones, abordando sus limitaciones en control y transparencia.

variational methods Optimization machine learning data science

RESEARCHarXiv CS.LG·hace 26d

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI propone un nuevo marco de inicialización de pesos para Redes Neuronales Aleatorias (RdNNs) que aborda la limitación de la inicialización aleatoria convencional que ignora la dependencia entre características. Utiliza una cópula ajustada a los datos para asegurar que las proyecciones congeladas respeten la dependencia empírica, mejorando el acondicionamiento y el rendimiento predictivo.

neural networks deep learning machine learning data science

DOCAnalytics Vidhya·hace 22d

40 Advanced SQL Window Functions Every Data Scientist Must Know(with examples)

Este artículo introduce 40 funciones de ventana SQL avanzadas esenciales para científicos de datos. Destaca la importancia de dominar estas características para sobresalir en la manipulación, agregación y análisis de datos más allá del SQL básico.

learning SQL data science Data Analysis

RESEARCHDEV.to AI·9/4/2026

A Survey and Taxonomy of Graph Sampling

Este artigo apresenta um levantamento e uma taxonomia abrangente de métodos de amostragem de grafos. O estudo organiza e classifica as diversas técnicas existentes, oferecendo uma visão estruturada sobre o tema.

Survey Graph Sampling machine learning data science

ARTICLEDEV.to AI·19/4/2026

UNMASKING THE MASTERPIECE: How I Leveraged Semantic AI to Decode 5,000 Years of Art History

Un estudiante de ciencias de la computación narra cómo utilizó IA Semántica y un pipeline de aprendizaje automático de alto rendimiento para clasificar datos de 5.000 años de historia del arte en un hackathon. A pesar de los registros desordenados, el proyecto logró una precisión verificada del 94,10%.

machine learning hackathon data science Semantic AI

RESEARCHarXiv CS.CL·hace 22d

Automatic Construction of a Legal Citation Graph from 100 Million Ukrainian Court Decisions: Large-Scale Extraction, Topological Analysis, and Ontology-Driven Clustering

Este estudio describe la construcción automática de un grafo de citas legales a partir de 100 millones de decisiones judiciales ucranianas. El análisis revela que la estructura de citas judiciales codifica los límites del dominio legal y predice la importancia legislativa futura con alta precisión.

LegalTech machine learning data science AI