← heapsort-ai

data science

53 items

CASE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen 3.6 27B is a BEAST

Un usuario informa que Qwen 3.6 27B, ejecutado localmente en una computadora portátil, sobresale en tareas de ciencia de datos como llamadas a herramientas y depuración de transformación de datos. Su rendimiento fue tan impresionante que están considerando cancelar las suscripciones a la nube, encontrándolo perfecto para trabajos con pyspark/python.

56
RESEARCH↑ trendingReddit r/MachineLearning·23/4/2026

8 inputs → 58 body params: putting a body-model forward pass inside the training loss [P]

Un pequeño modelo MLP predice con precisión 58 parámetros de forma corporal Anny a partir de 8 entradas de cuestionario, superando los métodos existentes basados en fotos y regresión lineal. La innovadora función de pérdida de entrenamiento del modelo es clave para su precisión superior, logrando errores absolutos medios bajos para mediciones corporales críticas.

43
ARTICLEDEV.to AI·hace 3d

<think>

Este artículo compara las APIs de IA de código abierto con el autoalojamiento de modelos para pequeñas prácticas de ciencia de datos, analizando costos y viabilidad. Ofrece la perspectiva de un científico de datos sobre la elección del enfoque óptimo.

30
DOCDEV.to AI·16/4/2026

Setting Up JupyterHub on a Cloud GPU Server

Esta guía detalla la configuración de JupyterHub en un servidor GPU en la nube para habilitar entornos colaborativos y multiusuario para proyectos de IA. Explica cómo JupyterHub gestiona servidores de cuadernos Jupyter individuales, proporcionando acceso compartido a una potencia computacional significativa.

30
ARTICLEDEV.to AI·hace 4d

<think>

Un científico de datos explora la optimización de costos en modelos de lenguaje grandes, detallando comparaciones de precios de API para modelos como GPT-4o, DeepSeek y Qwen. El artículo demuestra cómo el uso estratégico de una plataforma de API unificada puede generar ahorros significativos, presentando datos estadísticos y ejemplos prácticos.

29
DOCDEV.to AI·25/4/2026

Pandas DataFrames: Your Data Spreadsheet

El contenido explica que los DataFrames de Pandas son esenciales para manejar datos del mundo real en IA y ciencia de datos, funcionando como una hoja de cálculo etiquetada en contraste con las cuadrículas de números de NumPy. Define un DataFrame como una tabla con filas y columnas etiquetadas y proporciona un ejemplo en Python.

28
RESEARCHarXiv CS.LG·8/5/2026

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

Este manuscrito introduce el Data Driven Variational Basis Learning (DVBL), un novedoso marco no neuronal para aprender funciones de base adaptativas a los datos directamente de datos de alta dimensión. Proporciona una alternativa explícita, interpretable y matemáticamente transparente a las redes neuronales para el aprendizaje de representaciones, abordando sus limitaciones en control y transparencia.

27
RESEARCHarXiv CS.LG·hace 26d

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI propone un nuevo marco de inicialización de pesos para Redes Neuronales Aleatorias (RdNNs) que aborda la limitación de la inicialización aleatoria convencional que ignora la dependencia entre características. Utiliza una cópula ajustada a los datos para asegurar que las proyecciones congeladas respeten la dependencia empírica, mejorando el acondicionamiento y el rendimiento predictivo.

27
RESEARCHarXiv CS.CL·hace 22d

Automatic Construction of a Legal Citation Graph from 100 Million Ukrainian Court Decisions: Large-Scale Extraction, Topological Analysis, and Ontology-Driven Clustering

Este estudio describe la construcción automática de un grafo de citas legales a partir de 100 millones de decisiones judiciales ucranianas. El análisis revela que la estructura de citas judiciales codifica los límites del dominio legal y predice la importancia legislativa futura con alta precisión.

27