← heapsort-ai

AI training

43 items

ARTICLE↑ trendingReddit r/MachineLearning·4/15/2026

Are gamers being used as free labeling labor? The rise of "Simulators" that look like AI training grounds [D]

Ein KI-Nachrichtenkurator hinterfragt, ob Simulationsspiele wie "Data Center" dazu dienen, wertvolle menschliche Heuristiken für die Optimierung realer Infrastrukturen oder das KI-Training zu sammeln. Er vergleicht dies mit Recaptchas und schlägt vor, dass es eine geniale, aber kontroverse Methode ist, komplexe Probleme an Gamer auszulagern.

43
ARTICLE↑ trendingReddit r/MachineLearning·4/24/2026

Nanochat vs Llama for training from scratch? [P]

Der Benutzer trainiert ein KI-Modell von Grund auf neu und bittet um Rat zur besten Architektur, wobei er überlegt, von Nanochat (das keine Transformers-Kompatibilität bietet) zur Llama-Architektur zu wechseln. Ziel ist ein Open-Source-Projekt mit einem neuen, größeren Datensatz, trotz der Vorteile von Nanochat.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Der Autor trainierte Qwen2.5-0.5B-Instruct für die Zusammenfassung von Reddit-Posts mithilfe zweier Belohnungsstrategien und stellte fest, dass eine Kombination aus Qualitäts- und Längenabzügen deutlich bessere Ergebnisse lieferte. Die Evaluation erfolgte mittels LLM-As-A-Judge und DeepEval Tools für Metriken wie Gewissenhaftigkeit und Klarheit.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 26T

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Ein Experiment zeigte, dass ein kleines KI-Modell sich selbst zum Programmieren trainieren kann, indem es Probleme erfindet, sie löst und sich anhand eigener Korrekturen feinabstimmt. Das Modell erreichte 80% bei HumanEval und übertraf GPT-3.5 in Mathematik, wobei nur ein Python-Interpreter als Richter diente.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

This isn’t X this is Y needs to die

Der Autor kritisiert KI-Modelle für die exzessive Verwendung des Satzes 'Das ist nicht X, das ist Y' und schlägt vor, diese repetitive Ausgabe im Training zu eliminieren. Dieser kurze Beitrag plädiert für eine Verbesserung der KI-Modellqualität durch die Beseitigung solch häufiger, formelhafter Antworten.

33
RESEARCHarXiv CS.AI·5/9/2026

ZAYA1-8B Technical Report

ZAYA1-8B ist ein auf logisches Denken fokussiertes Mixture-of-Experts (MoE)-Modell mit 700 Millionen aktiven Parametern, das DeepSeek-R1-0528 bei Mathematik- und Codierungs-Benchmarks übertrifft. Es wurde von Grund auf für das Denken auf einer AMD-Plattform trainiert und nutzt eine vierstufige RL-Kaskade für das Post-Training.

29
DOCAWS Machine Learning Blog·5/7/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Dieser Beitrag beschreibt die Implementierung von verifizierbarem belohnungsbasiertem Reinforcement Learning (RLVR), um die Trainingsleistung durch Transparenz und Korrektheit der Belohnungssignale zu verbessern. Er behandelt Techniken wie GRPO und Few-Shot-Beispiele, demonstriert am GSM8K-Datensatz zur Verbesserung der Genauigkeit bei der Lösung mathematischer Probleme.

29
ARTICLEDEV.to AI·5/1/2026

From Mumbles to Memos: Teaching AI to Decipher Technician Voice Notes

Dieser Artikel behandelt den Produktivitätsengpass, der durch das manuelle Entziffern von Sprachnotizen von Technikern entsteht, und schlägt KI als Lösung vor, um Feldaufnahmen in professionelle Zusammenfassungen umzuwandeln. Er beschreibt eine Methodik, das 'Actionable Framework: The 3-Part Jargon List', um die KI darin zu schulen, spezifische Informationen aus unstrukturierten Audiodaten zu kategorisieren.

27
ARTICLEDEV.to AI·4/21/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Ein leitender Softwareingenieur und KI-Trainer deckt die oft übersehene Realität der Qualität von KI-generiertem Code auf und stellt fest, dass dieser häufig nicht den Produktionsstandards entspricht. Er identifiziert konsistente Fehlermuster und erläutert seine Rolle im Reinforcement Learning from Human Feedback (RLHF)-Zyklus, wo er Modellausgaben bewertet und verbessert.

27