AI training

43 items

ARTICLE↑ trendingReddit r/MachineLearning·4/15/2026

Are gamers being used as free labeling labor? The rise of "Simulators" that look like AI training grounds [D]

Ein KI-Nachrichtenkurator hinterfragt, ob Simulationsspiele wie "Data Center" dazu dienen, wertvolle menschliche Heuristiken für die Optimierung realer Infrastrukturen oder das KI-Training zu sammeln. Er vergleicht dies mit Recaptchas und schlägt vor, dass es eine geniale, aber kontroverse Methode ist, komplexe Probleme an Gamer auszulagern.

Ethics of AI gamification sim-to-real AI training

ARTICLE↑ trendingHacker News (AI)·vor 13T

Training our own AI models

Dieser Artikel behandelt den Prozess und die Überlegungen beim Training eigener KI-Modelle. Er beleuchtet die Herausforderungen und Vorteile der Entwicklung interner Fähigkeiten im Bereich der künstlichen Intelligenz.

AI training machine learning data science custom models

ARTICLE↑ trendingHacker News (AI)·vor 7T

Google Is Quietly Buying Code from Play Store Developers to Train AI

Google kauft angeblich heimlich Code von Play Store-Entwicklern, um seine KI-Modelle zu trainieren, was Fragen zu Datenschutz und Zustimmung aufwirft. Das Unternehmen bietet Zahlungen im Austausch für den Zugang zum Code an, was Auswirkungen auf das Entwickler-Ökosystem haben könnte.

ethics AI training Google Play Store

ARTICLE↑ trendingReddit r/MachineLearning·4/24/2026

Nanochat vs Llama for training from scratch? [P]

Der Benutzer trainiert ein KI-Modell von Grund auf neu und bittet um Rat zur besten Architektur, wobei er überlegt, von Nanochat (das keine Transformers-Kompatibilität bietet) zur Llama-Architektur zu wechseln. Ziel ist ein Open-Source-Projekt mit einem neuen, größeren Datensatz, trotz der Vorteile von Nanochat.

AI architecture open-source AI AI training LLM

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Der Autor trainierte Qwen2.5-0.5B-Instruct für die Zusammenfassung von Reddit-Posts mithilfe zweier Belohnungsstrategien und stellte fest, dass eine Kombination aus Qualitäts- und Längenabzügen deutlich bessere Ergebnisse lieferte. Die Evaluation erfolgte mittels LLM-As-A-Judge und DeepEval Tools für Metriken wie Gewissenhaftigkeit und Klarheit.

evaluation reinforcement learning AI training summarization

ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Anyone have an S3-compatible store that actually saturates H100s without the AWS egress tax? [R]

Um usuário está treinando modelos de IA em Lambda Labs com um dataset de 40TB no AWS S3, enfrentando altas taxas de egress. Ele busca uma alternativa de armazenamento sem taxas de egress e alta velocidade, ou uma camada de cache NVMe, após problemas de latência com Cloudflare R2 levarem à subutilização da GPU.

cloud storage GPU AI training HPC

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 26T

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Ein Experiment zeigte, dass ein kleines KI-Modell sich selbst zum Programmieren trainieren kann, indem es Probleme erfindet, sie löst und sich anhand eigener Korrekturen feinabstimmt. Das Modell erreichte 80% bei HumanEval und übertraf GPT-3.5 in Mathematik, wobei nur ein Python-Interpreter als Richter diente.

self-correction AI training Benchmarking code generation

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

NEWS↑ trendingReddit r/LocalLLaMA·5/6/2026

ZAYA1-8B: Frontier intelligence density, trained on AMD

ZAYA1-8B, ein neues KI-Modell, das eine führende Intelligenzdichte aufweist, wurde angekündigt. Es wurde bemerkenswerterweise mit AMD-Hardware trainiert.

AI training AMD AI model hardware

ZAYA1-8B: Frontier intelligence density, trained on AMD

ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

This isn’t X this is Y needs to die

Der Autor kritisiert KI-Modelle für die exzessive Verwendung des Satzes 'Das ist nicht X, das ist Y' und schlägt vor, diese repetitive Ausgabe im Training zu eliminieren. Dieser kurze Beitrag plädiert für eine Verbesserung der KI-Modellqualität durch die Beseitigung solch häufiger, formelhafter Antworten.

AI models AI training natural language generation

ARTICLEDEV.to AI·vor 3T

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Agent Lightning ist ein Framework, das darauf ausgelegt ist, beliebige KI-Agenten mittels Reinforcement Learning zu trainieren. Es zielt darauf ab, den Prozess der Entwicklung und Optimierung intelligenter Agenten zu vereinfachen und zu beschleunigen.

reinforcement learning AI training machine learning AI agents

DOCDEV.to AI·vor 5T

Gen AI Training in Chennai | Gen AI course

Die Generative KI-Schulung in Chennai bietet praktisches Lernen in Prompt Engineering, LLMs und KI-Projekten und bereitet Fachkräfte auf moderne IT-Karrieren vor. Der Kurs konzentriert sich auf reale Anwendungen und Technologien wie Python und OpenAI, was Chennai zu einem wachsenden KI-Zentrum macht.

prompt engineering learning AI training Chennai

RESEARCHarXiv CS.AI·5/9/2026

ZAYA1-8B Technical Report

ZAYA1-8B ist ein auf logisches Denken fokussiertes Mixture-of-Experts (MoE)-Modell mit 700 Millionen aktiven Parametern, das DeepSeek-R1-0528 bei Mathematik- und Codierungs-Benchmarks übertrifft. Es wurde von Grund auf für das Denken auf einer AMD-Plattform trainiert und nutzt eine vierstufige RL-Kaskade für das Post-Training.

AI models AI training machine learning Benchmarking

RESEARCHarXiv CS.AI·vor 20T

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Dieses Papier stellt Learn-by-Wire Guard (LBW-Guard) vor, eine autonome Trainingssteuerungs-Governance-Schicht für Sprachmodelle. Es zielt darauf ab, die Trainingsstabilität und -effizienz zu verbessern und die finale Perplexität erheblich zu reduzieren.

language models deep learning AI training model stability

DOCAWS Machine Learning Blog·5/7/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Dieser Beitrag beschreibt die Implementierung von verifizierbarem belohnungsbasiertem Reinforcement Learning (RLVR), um die Trainingsleistung durch Transparenz und Korrektheit der Belohnungssignale zu verbessern. Er behandelt Techniken wie GRPO und Few-Shot-Beispiele, demonstriert am GSM8K-Datensatz zur Verbesserung der Genauigkeit bei der Lösung mathematischer Probleme.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.CL·vor 5T

POLARIS: Guiding Small Models to Write Long Stories

POLARIS ist ein neues GRPO-Rezept, das einen LLM-Richter für Belohnungen und die Injektion menschlicher Referenzen verwendet, um kleine Modelle zu trainieren. Es verbessert signifikant ihre Fähigkeit, lange, qualitativ hochwertige Geschichten zu schreiben, wodurch ein 9B-Modell mit viel größeren Frontier-Modellen konkurrenzfähig wird.

story generation AI training machine learning creative writing

ARTICLEDEV.to AI·5/1/2026

From Mumbles to Memos: Teaching AI to Decipher Technician Voice Notes

Dieser Artikel behandelt den Produktivitätsengpass, der durch das manuelle Entziffern von Sprachnotizen von Technikern entsteht, und schlägt KI als Lösung vor, um Feldaufnahmen in professionelle Zusammenfassungen umzuwandeln. Er beschreibt eine Methodik, das 'Actionable Framework: The 3-Part Jargon List', um die KI darin zu schulen, spezifische Informationen aus unstrukturierten Audiodaten zu kategorisieren.

workflow automation AI training productivity natural language processing

NEWSDEV.to AI·vor 19T

Meta Trains Coding AI on Engineers' Work Traces as 8K Jobs Cut

Meta trainiert eine Coding-KI mit den Arbeitsspuren seiner Ingenieure und streicht gleichzeitig 8.000 Stellen, laut einem durchgesickerten Audio. CEO Mark Zuckerberg argumentiert, dass Modelle besser lernen, indem sie "wirklich kluge Leute" bei Aufgaben beobachten.

future-of-work AI training coding AI Meta

ARTICLEDEV.to AI·4/21/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Ein leitender Softwareingenieur und KI-Trainer deckt die oft übersehene Realität der Qualität von KI-generiertem Code auf und stellt fest, dass dieser häufig nicht den Produktionsstandards entspricht. Er identifiziert konsistente Fehlermuster und erläutert seine Rolle im Reinforcement Learning from Human Feedback (RLHF)-Zyklus, wo er Modellausgaben bewertet und verbessert.

AI training RLHF code quality AI development

DOCHugging Face Blog·vor 29T

Building Blocks for Foundation Model Training and Inference on AWS

Der Inhalt behandelt die wesentlichen Bausteine für das Training und die Inferenz von Fundamentmodellen auf der AWS-Plattform. Er untersucht die notwendigen Komponenten zur Implementierung und zum Betrieb dieser Modelle.

AI training machine learning Foundation Models AWS

ARTICLEThe Verge AI·vor 11T

Tech companies desperately want to film you doing chores

Ein KI-Trainings-Startup namens Shift bietet in New York kostenlose Hausreinigung im Austausch für Aufnahmen der Arbeit an. Ziel ist es, Videodaten von Hausarbeiten zu sammeln, um Roboter für zukünftige Automatisierung zu trainieren. Der Dienst plant, auch in andere Städte, einschließlich London, zu expandieren.

future-of-work AI training robotics automation