← heapsort-ai

data science

53 items

CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen 3.6 27B is a BEAST

Un utilisateur rapporte que Qwen 3.6 27B, exécuté localement sur un ordinateur portable, excelle dans les tâches de science des données telles que les appels d'outils et le débogage de transformation de données. Ses performances sont si impressionnantes qu'il envisage d'annuler ses abonnements au cloud, le trouvant parfait pour le travail pyspark/python.

56
RESEARCH↑ trendingReddit r/MachineLearning·23/04/2026

8 inputs → 58 body params: putting a body-model forward pass inside the training loss [P]

Un petit modèle MLP prédit avec précision 58 paramètres de forme corporelle Anny à partir de 8 entrées de questionnaire, surpassant les méthodes existantes basées sur des photos et la régression linéaire. La fonction de perte d'entraînement innovante du modèle est essentielle à sa précision supérieure, atteignant de faibles erreurs absolues moyennes pour les mesures corporelles critiques.

43
ARTICLEDEV.to AI·il y a 3j

<think>

Cet article compare les APIs d'IA open source avec l'hébergement de modèles en interne pour les petites pratiques de science des données, en se concentrant sur les coûts et la praticité. Il propose la perspective d'un scientifique des données sur le choix de l'approche optimale.

30
DOCDEV.to AI·16/04/2026

Setting Up JupyterHub on a Cloud GPU Server

Ce guide détaille la configuration de JupyterHub sur un serveur GPU cloud pour permettre des environnements collaboratifs et multi-utilisateurs pour les projets d'IA. Il explique comment JupyterHub gère les serveurs de carnets Jupyter individuels, offrant un accès partagé à une puissance de calcul significative.

30
ARTICLEDEV.to AI·il y a 4j

<think>

Un scientifique des données explore l'optimisation des coûts des grands modèles de langage, détaillant les comparaisons de prix des API pour des modèles comme GPT-4o, DeepSeek et Qwen. L'article démontre comment l'utilisation stratégique d'une plateforme d'API unifiée peut entraîner des économies significatives, présentant des données statistiques et des exemples pratiques.

29
DOCAWS Machine Learning Blog·il y a 21j

Accelerate ML feature pipelines with new capabilities in Amazon SageMaker Feature Store

Amazon annonce trois nouvelles fonctionnalités dans le SageMaker Python SDK v3.8.0 pour accélérer les pipelines de fonctionnalités ML. L'article fournit des exemples de code et des liens vers des notebooks pour des démonstrations complètes, couvrant la gouvernance de Lake Formation et les propriétés des tables Iceberg.

28
DOCDEV.to AI·25/04/2026

Pandas DataFrames: Your Data Spreadsheet

Le contenu explique que les DataFrames de Pandas sont essentiels pour gérer les données du monde réel en IA et en science des données, fonctionnant comme une feuille de calcul étiquetée par rapport aux grilles numériques de NumPy. Il définit un DataFrame comme une table avec des lignes et des colonnes étiquetées et fournit un exemple Python.

28
RESEARCHarXiv CS.LG·08/05/2026

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

Ce manuscrit présente le Data Driven Variational Basis Learning (DVBL), un nouveau cadre non neuronal pour l'apprentissage de fonctions de base adaptatives aux données directement à partir de données de haute dimension. Il offre une alternative explicite, interprétable et mathématiquement transparente aux réseaux neuronaux pour l'apprentissage de représentations, abordant leurs limites en matière de contrôle et de transparence.

27
RESEARCHarXiv CS.LG·il y a 26j

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI propose un nouveau cadre d'initialisation des poids pour les réseaux neuronaux aléatoires (RdNNs) qui résout la limitation de l'initialisation aléatoire conventionnelle ignorant la dépendance inter-caractéristiques. Il utilise une copule ajustée aux données pour garantir que les projections figées respectent la dépendance empirique, améliorant le conditionnement et les performances prédictives.

27
RESEARCHarXiv CS.CL·il y a 22j

Automatic Construction of a Legal Citation Graph from 100 Million Ukrainian Court Decisions: Large-Scale Extraction, Topological Analysis, and Ontology-Driven Clustering

Cette étude décrit la construction automatique d'un graphe de citations juridiques à partir de 100 millions de décisions de justice ukrainiennes. L'analyse révèle que la structure des citations judiciaires encode les frontières des domaines juridiques et prédit l'importance législative future avec une grande précision.

27