data science

53 items

CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen 3.6 27B is a BEAST

Ein Benutzer berichtet, dass Qwen 3.6 27B, lokal auf einem Laptop ausgeführt, sich hervorragend für Data-Science-Aufgaben wie Tool-Aufrufe und die Fehlerbehebung bei Datentransformationen eignet. Die Leistung war so beeindruckend, dass er erwägt, Cloud-Abonnements zu kündigen, da er es als perfekt für pyspark/python-Arbeiten empfindet.

local inference Benchmarking data science LLM

RESEARCH↑ trendingReddit r/MachineLearning·4/23/2026

8 inputs → 58 body params: putting a body-model forward pass inside the training loss [P]

Ein kleines MLP-Modell prognostiziert präzise 58 Anny-Körperformparameter aus 8 Fragebogeneingaben und übertrifft dabei bestehende foto- und linear regressionsbasierte Methoden. Die innovative Trainingsverlustfunktion des Modells ist entscheidend für seine überlegene Genauigkeit und erzielt niedrige mittlere absolute Fehler für kritische Körpermaße.

neural networks body modeling Performance Metrics machine learning

ARTICLE↑ trendingHacker News (AI)·vor 13T

Training our own AI models

Dieser Artikel behandelt den Prozess und die Überlegungen beim Training eigener KI-Modelle. Er beleuchtet die Herausforderungen und Vorteile der Entwicklung interner Fähigkeiten im Bereich der künstlichen Intelligenz.

AI training machine learning data science custom models

NEWS↑ trendingReddit r/MachineLearning·4/8/2026

Free tool I built to score dataset quality (LQS) — feedback welcome [D]

Foi desenvolvida e lançada uma ferramenta gratuita para avaliar a qualidade de datasets (LQS), permitindo fazer upload de dados e obter uma pontuação detalhada em 7 dimensões. A ferramenta suporta formatos comuns de ML e busca feedback de profissionais sobre sua metodologia e relevância.

dataset-quality machine learning data science AI tools

ARTICLEDEV.to AI·vor 3T

<think>

Dieser Artikel vergleicht Open-Source-KI-APIs mit dem Selbst-Hosting von Modellen für kleine Datenwissenschaftspraxen, wobei der Schwerpunkt auf Kosten und Praktikabilität liegt. Er bietet die Perspektive eines Datenwissenschaftlers bei der Wahl des optimalen Ansatzes.

Open Source self-hosting data science Cost Optimization

DOCDEV.to AI·4/16/2026

Setting Up JupyterHub on a Cloud GPU Server

Dieser Leitfaden beschreibt die Einrichtung von JupyterHub auf einem Cloud-GPU-Server, um kollaborative Mehrbenutzerumgebungen für KI-Projekte zu ermöglichen. Er erläutert, wie JupyterHub einzelne Jupyter-Notebook-Server verwaltet und somit gemeinsamen Zugriff auf erhebliche Rechenleistung bietet.

Cloud GPU machine learning data science AI

DOCDEV.to AI·vor 3T

Decision Trees — A Beginner Technical Guide

Entscheidungsbäume sind intuitive maschinelle Lernmodelle, die menschliche Entscheidungsprozesse nachahmen, indem sie eine Reihe von Ja/Nein-Fragen stellen. Sie sind nicht nur als eigenständige Modelle von grundlegender Bedeutung, sondern auch als Grundlage für einige der leistungsfähigsten Algorithmen im modernen maschinellen Lernen.

decision trees learning machine learning data science

ARTICLEDEV.to AI·vor 4T

<think>

Ein Datenwissenschaftler untersucht die Kostenoptimierung bei großen Sprachmodellen und detailliert API-Preisvergleiche für Modelle wie GPT-4o, DeepSeek und Qwen. Der Artikel zeigt, wie der strategische Einsatz einer einheitlichen API-Plattform zu erheblichen Einsparungen führen kann, und präsentiert statistische Daten und praktische Beispiele.

AI pricing data science API Cost Optimization

DOCAWS Machine Learning Blog·vor 21T

Accelerate ML feature pipelines with new capabilities in Amazon SageMaker Feature Store

Amazon kündigt drei neue Funktionen im SageMaker Python SDK v3.8.0 an, um ML-Feature-Pipelines zu beschleunigen. Der Beitrag bietet Codebeispiele und Links zu Notebooks für umfassende Anleitungen, die die Lake Formation-Governance und Iceberg-Tabelleneigenschaften abdecken.

machine learning data science Python SDK Feature Store

RESEARCHDEV.to AI·vor 5T

Hierarchical Clustering Based on Mutual Information

Dieser Inhalt beschreibt eine Methode des hierarchischen Clusterings, die auf gegenseitiger Information basiert. Er untersucht, wie gegenseitige Information angewendet werden kann, um eine robuste und effektive Clusterstruktur aufzubauen.

Mutual Information machine learning data science Hierarchical Clustering

ARTICLEKDNuggets·vor 5T

What the Agentic Era Means for Data Science

Dieser Artikel untersucht, wie KI-Agenten Datenwissenschafts-Workflows umgestalten und welche Fähigkeiten Praktiker bis 2026 benötigen.

future-of-work workflow automation learning data science

What the Agentic Era Means for Data Science

RESEARCHDEV.to AI·4/22/2026

Algorithms, Initializations, and Convergence for the Nonnegative MatrixFactorization

Dieser Inhalt befasst sich mit der nicht-negativen Matrixfaktorisierung (NMF) und untersucht Algorithmen, Initialisierungsstrategien und deren Konvergenz. Er bietet eine detaillierte Analyse, wie diese Faktoren die Leistung und Stabilität von NMF-Lösungen beeinflussen.

machine learning data science Algorithms

DOCDEV.to AI·4/25/2026

Pandas DataFrames: Your Data Spreadsheet

Der Inhalt erklärt, dass Pandas DataFrames für die Handhabung realer, gemischter Daten in KI und Datenwissenschaft unerlässlich sind und als beschriftete Tabelle im Vergleich zu den reinen Zahlenrastern von NumPy dienen. Es wird ein DataFrame als Tabelle mit beschrifteten Zeilen und Spalten eingeführt und ein Python-Beispiel gegeben.

Pandas DataFrames NumPy data science

RESEARCHDEV.to AI·4/12/2026

A Neural Network based Approach for Predicting Customer Churn in CellularNetwork Services

Diese Arbeit schlägt einen auf neuronalen Netzen basierenden Ansatz vor, um die Kundenabwanderung bei Mobilfunkdiensten vorherzusagen. Ziel ist es, Muster im Nutzerverhalten zu identifizieren, um den Dienstabbruch vorherzusehen.

Telecommunications machine learning data science customer churn prediction

RESEARCHarXiv CS.LG·5/8/2026

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

Dieses Manuskript stellt das Data Driven Variational Basis Learning (DVBL) vor, ein neuartiges nicht-neuronales Framework zum Lernen von datenadaptiven Basisfunktionen direkt aus hochdimensionalen Daten. Es bietet eine explizite, interpretierbare und mathematisch transparente Alternative zu neuronalen Netzen für das Repräsentationslernen, die deren Einschränkungen in Bezug auf Kontrolle und Transparenz adressiert.

variational methods Optimization machine learning data science

RESEARCHarXiv CS.LG·vor 26T

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI schlägt ein neues Framework zur Gewichtungsinitialisierung für Randomisierte Neuronale Netze (RdNNs) vor, das die Einschränkung konventioneller zufälliger Initialisierung, welche die Inter-Feature-Abhängigkeit ignoriert, beseitigt. Es verwendet eine datenangepasste Kopula, um sicherzustellen, dass die eingefrorenen Projektionen die empirische Abhängigkeit respektieren und so die Konditionierung sowie die Vorhersageleistung verbessern.

neural networks deep learning machine learning data science

DOCAnalytics Vidhya·vor 22T

40 Advanced SQL Window Functions Every Data Scientist Must Know(with examples)

Dieser Artikel stellt 40 fortgeschrittene SQL-Fensterfunktionen vor, die für Datenwissenschaftler unerlässlich sind. Er betont die Wichtigkeit, diese Funktionen zu beherrschen, um sich in der Datenmanipulation, -aggregation und -analyse über grundlegendes SQL hinaus auszuzeichnen.

learning SQL data science Data Analysis

RESEARCHDEV.to AI·4/9/2026

A Survey and Taxonomy of Graph Sampling

Este artigo apresenta um levantamento e uma taxonomia abrangente de métodos de amostragem de grafos. O estudo organiza e classifica as diversas técnicas existentes, oferecendo uma visão estruturada sobre o tema.

Survey Graph Sampling machine learning data science

ARTICLEDEV.to AI·4/19/2026

UNMASKING THE MASTERPIECE: How I Leveraged Semantic AI to Decode 5,000 Years of Art History

Ein Informatikstudent berichtet, wie er semantische KI und eine hochleistungsfähige Machine-Learning-Pipeline nutzte, um 5.000 Jahre Kunstgeschichte für einen Hackathon zu klassifizieren. Trotz unordentlicher Aufzeichnungen erreichte das Projekt eine verifizierte Genauigkeit von 94,10 %.

machine learning hackathon data science Semantic AI

RESEARCHarXiv CS.CL·vor 22T

Automatic Construction of a Legal Citation Graph from 100 Million Ukrainian Court Decisions: Large-Scale Extraction, Topological Analysis, and Ontology-Driven Clustering

Diese Studie beschreibt die automatische Konstruktion eines Rechtszitiergraphen aus 100 Millionen ukrainischen Gerichtsentscheidungen. Die Analyse zeigt, dass die gerichtliche Zitierstruktur Rechtsdomänengrenzen kodiert und zukünftige legislative Bedeutung mit hoher Genauigkeit vorhersagt.

LegalTech machine learning data science AI