← heapsort-ai

data science

53 items

CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen 3.6 27B is a BEAST

Ein Benutzer berichtet, dass Qwen 3.6 27B, lokal auf einem Laptop ausgeführt, sich hervorragend für Data-Science-Aufgaben wie Tool-Aufrufe und die Fehlerbehebung bei Datentransformationen eignet. Die Leistung war so beeindruckend, dass er erwägt, Cloud-Abonnements zu kündigen, da er es als perfekt für pyspark/python-Arbeiten empfindet.

56
RESEARCH↑ trendingReddit r/MachineLearning·4/23/2026

8 inputs → 58 body params: putting a body-model forward pass inside the training loss [P]

Ein kleines MLP-Modell prognostiziert präzise 58 Anny-Körperformparameter aus 8 Fragebogeneingaben und übertrifft dabei bestehende foto- und linear regressionsbasierte Methoden. Die innovative Trainingsverlustfunktion des Modells ist entscheidend für seine überlegene Genauigkeit und erzielt niedrige mittlere absolute Fehler für kritische Körpermaße.

43
ARTICLEDEV.to AI·vor 3T

<think>

Dieser Artikel vergleicht Open-Source-KI-APIs mit dem Selbst-Hosting von Modellen für kleine Datenwissenschaftspraxen, wobei der Schwerpunkt auf Kosten und Praktikabilität liegt. Er bietet die Perspektive eines Datenwissenschaftlers bei der Wahl des optimalen Ansatzes.

30
ARTICLEDEV.to AI·vor 4T

<think>

Ein Datenwissenschaftler untersucht die Kostenoptimierung bei großen Sprachmodellen und detailliert API-Preisvergleiche für Modelle wie GPT-4o, DeepSeek und Qwen. Der Artikel zeigt, wie der strategische Einsatz einer einheitlichen API-Plattform zu erheblichen Einsparungen führen kann, und präsentiert statistische Daten und praktische Beispiele.

29
DOCDEV.to AI·4/25/2026

Pandas DataFrames: Your Data Spreadsheet

Der Inhalt erklärt, dass Pandas DataFrames für die Handhabung realer, gemischter Daten in KI und Datenwissenschaft unerlässlich sind und als beschriftete Tabelle im Vergleich zu den reinen Zahlenrastern von NumPy dienen. Es wird ein DataFrame als Tabelle mit beschrifteten Zeilen und Spalten eingeführt und ein Python-Beispiel gegeben.

28
RESEARCHarXiv CS.LG·5/8/2026

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

Dieses Manuskript stellt das Data Driven Variational Basis Learning (DVBL) vor, ein neuartiges nicht-neuronales Framework zum Lernen von datenadaptiven Basisfunktionen direkt aus hochdimensionalen Daten. Es bietet eine explizite, interpretierbare und mathematisch transparente Alternative zu neuronalen Netzen für das Repräsentationslernen, die deren Einschränkungen in Bezug auf Kontrolle und Transparenz adressiert.

27
RESEARCHarXiv CS.LG·vor 26T

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

CAWI schlägt ein neues Framework zur Gewichtungsinitialisierung für Randomisierte Neuronale Netze (RdNNs) vor, das die Einschränkung konventioneller zufälliger Initialisierung, welche die Inter-Feature-Abhängigkeit ignoriert, beseitigt. Es verwendet eine datenangepasste Kopula, um sicherzustellen, dass die eingefrorenen Projektionen die empirische Abhängigkeit respektieren und so die Konditionierung sowie die Vorhersageleistung verbessern.

27
RESEARCHarXiv CS.CL·vor 22T

Automatic Construction of a Legal Citation Graph from 100 Million Ukrainian Court Decisions: Large-Scale Extraction, Topological Analysis, and Ontology-Driven Clustering

Diese Studie beschreibt die automatische Konstruktion eines Rechtszitiergraphen aus 100 Millionen ukrainischen Gerichtsentscheidungen. Die Analyse zeigt, dass die gerichtliche Zitierstruktur Rechtsdomänengrenzen kodiert und zukünftige legislative Bedeutung mit hoher Genauigkeit vorhersagt.

27