data science

53 items

CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen 3.6 27B is a BEAST

Un utilisateur rapporte que Qwen 3.6 27B, exécuté localement sur un ordinateur portable, excelle dans les tâches de science des données telles que les appels d'outils et le débogage de transformation de données. Ses performances sont si impressionnantes qu'il envisage d'annuler ses abonnements au cloud, le trouvant parfait pour le travail pyspark/python.

local inference Benchmarking data science LLM

RESEARCH↑ trendingReddit r/MachineLearning·23/04/2026

8 inputs → 58 body params: putting a body-model forward pass inside the training loss [P]

Un petit modèle MLP prédit avec précision 58 paramètres de forme corporelle Anny à partir de 8 entrées de questionnaire, surpassant les méthodes existantes basées sur des photos et la régression linéaire. La fonction de perte d'entraînement innovante du modèle est essentielle à sa précision supérieure, atteignant de faibles erreurs absolues moyennes pour les mesures corporelles critiques.

neural networks body modeling Performance Metrics machine learning

ARTICLE↑ trendingHacker News (AI)·il y a 13j

Training our own AI models

Cet article traite du processus et des considérations impliquées dans la formation de modèles d'IA personnalisés. Il couvre les défis et les avantages du développement de capacités d'intelligence artificielle en interne.

AI training machine learning data science custom models

NEWS↑ trendingReddit r/MachineLearning·08/04/2026

Free tool I built to score dataset quality (LQS) — feedback welcome [D]

Foi desenvolvida e lançada uma ferramenta gratuita para avaliar a qualidade de datasets (LQS), permitindo fazer upload de dados e obter uma pontuação detalhada em 7 dimensões. A ferramenta suporta formatos comuns de ML e busca feedback de profissionais sobre sua metodologia e relevância.

dataset-quality machine learning data science AI tools

ARTICLEDEV.to AI·il y a 3j

<think>

Cet article compare les APIs d'IA open source avec l'hébergement de modèles en interne pour les petites pratiques de science des données, en se concentrant sur les coûts et la praticité. Il propose la perspective d'un scientifique des données sur le choix de l'approche optimale.

Open Source self-hosting data science Cost Optimization

DOCDEV.to AI·16/04/2026

Setting Up JupyterHub on a Cloud GPU Server

Ce guide détaille la configuration de JupyterHub sur un serveur GPU cloud pour permettre des environnements collaboratifs et multi-utilisateurs pour les projets d'IA. Il explique comment JupyterHub gère les serveurs de carnets Jupyter individuels, offrant un accès partagé à une puissance de calcul significative.

Cloud GPU machine learning data science AI

DOCDEV.to AI·il y a 3j

Decision Trees — A Beginner Technical Guide

Les arbres de décision sont des modèles d'apprentissage automatique intuitifs qui imitent les processus de décision humaine en posant une séquence de questions oui/non. Ils sont fondamentaux non seulement en tant que modèles autonomes, mais aussi comme base pour des algorithmes plus puissants en apprentissage automatique moderne.

decision trees learning machine learning data science

ARTICLEDEV.to AI·il y a 4j

<think>

Un scientifique des données explore l'optimisation des coûts des grands modèles de langage, détaillant les comparaisons de prix des API pour des modèles comme GPT-4o, DeepSeek et Qwen. L'article démontre comment l'utilisation stratégique d'une plateforme d'API unifiée peut entraîner des économies significatives, présentant des données statistiques et des exemples pratiques.

AI pricing data science API Cost Optimization

DOCAWS Machine Learning Blog·il y a 21j

Accelerate ML feature pipelines with new capabilities in Amazon SageMaker Feature Store

Amazon annonce trois nouvelles fonctionnalités dans le SageMaker Python SDK v3.8.0 pour accélérer les pipelines de fonctionnalités ML. L'article fournit des exemples de code et des liens vers des notebooks pour des démonstrations complètes, couvrant la gouvernance de Lake Formation et les propriétés des tables Iceberg.

machine learning data science Python SDK Feature Store

RESEARCHDEV.to AI·il y a 5j

Hierarchical Clustering Based on Mutual Information

Ce contenu décrit une méthode de clustering hiérarchique basée sur l'information mutuelle. Il explore comment l'information mutuelle peut être appliquée pour construire une structure de clustering robuste et efficace.

Mutual Information machine learning data science Hierarchical Clustering

ARTICLEKDNuggets·il y a 5j

What the Agentic Era Means for Data Science

Cet article explore comment les agents d'IA transforment les flux de travail de la science des données et les compétences requises par les professionnels en 2026.

future-of-work workflow automation learning data science

What the Agentic Era Means for Data Science

RESEARCHDEV.to AI·22/04/2026

Algorithms, Initializations, and Convergence for the Nonnegative MatrixFactorization

Ce contenu explore la Factorisation de Matrices Non Négatives (NMF), en examinant les algorithmes, les stratégies d'initialisation et leur convergence. Il fournit une analyse détaillée de l'influence de ces facteurs sur la performance et la stabilité des solutions NMF.

machine learning data science Algorithms

DOCDEV.to AI·25/04/2026

Pandas DataFrames: Your Data Spreadsheet

Le contenu explique que les DataFrames de Pandas sont essentiels pour gérer les données du monde réel en IA et en science des données, fonctionnant comme une feuille de calcul étiquetée par rapport aux grilles numériques de NumPy. Il définit un DataFrame comme une table avec des lignes et des colonnes étiquetées et fournit un exemple Python.

Pandas DataFrames NumPy data science

RESEARCHDEV.to AI·12/04/2026

A Neural Network based Approach for Predicting Customer Churn in CellularNetwork Services

Ce travail propose une approche basée sur les réseaux neuronaux pour prédire la désaffection des clients dans les services de réseaux cellulaires. L'objectif est d'identifier les modèles de comportement des utilisateurs afin d'anticiper l'abandon du service.

Telecommunications machine learning data science customer churn prediction

RESEARCHarXiv CS.LG·08/05/2026

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

Ce manuscrit présente le Data Driven Variational Basis Learning (DVBL), un nouveau cadre non neuronal pour l'apprentissage de fonctions de base adaptatives aux données directement à partir de données de haute dimension. Il offre une alternative explicite, interprétable et mathématiquement transparente aux réseaux neuronaux pour l'apprentissage de représentations, abordant leurs limites en matière de contrôle et de transparence.

variational methods Optimization machine learning data science

RESEARCHarXiv CS.LG·il y a 26j

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI propose un nouveau cadre d'initialisation des poids pour les réseaux neuronaux aléatoires (RdNNs) qui résout la limitation de l'initialisation aléatoire conventionnelle ignorant la dépendance inter-caractéristiques. Il utilise une copule ajustée aux données pour garantir que les projections figées respectent la dépendance empirique, améliorant le conditionnement et les performances prédictives.

neural networks deep learning machine learning data science

DOCAnalytics Vidhya·il y a 22j

40 Advanced SQL Window Functions Every Data Scientist Must Know(with examples)

Cet article présente 40 fonctions de fenêtre SQL avancées essentielles pour les scientifiques de données. Il souligne l'importance de maîtriser ces fonctionnalités pour exceller dans la manipulation, l'agrégation et l'analyse de données au-delà du SQL de base.

learning SQL data science Data Analysis

RESEARCHDEV.to AI·09/04/2026

A Survey and Taxonomy of Graph Sampling

Este artigo apresenta um levantamento e uma taxonomia abrangente de métodos de amostragem de grafos. O estudo organiza e classifica as diversas técnicas existentes, oferecendo uma visão estruturada sobre o tema.

Survey Graph Sampling machine learning data science

ARTICLEDEV.to AI·19/04/2026

UNMASKING THE MASTERPIECE: How I Leveraged Semantic AI to Decode 5,000 Years of Art History

Un étudiant en informatique raconte comment il a utilisé l'IA sémantique et un pipeline d'apprentissage automatique haute performance pour classer 5 000 ans de données d'histoire de l'art lors d'un hackathon. Malgré des enregistrements désordonnés, le projet a atteint une précision vérifiée de 94,10 %.

machine learning hackathon data science Semantic AI

RESEARCHarXiv CS.CL·il y a 22j

Automatic Construction of a Legal Citation Graph from 100 Million Ukrainian Court Decisions: Large-Scale Extraction, Topological Analysis, and Ontology-Driven Clustering

Cette étude décrit la construction automatique d'un graphe de citations juridiques à partir de 100 millions de décisions de justice ukrainiennes. L'analyse révèle que la structure des citations judiciaires encode les frontières des domaines juridiques et prédit l'importance législative future avec une grande précision.

LegalTech machine learning data science AI