model training

16 items

RESEARCH↑ trendingReddit r/MachineLearning·4/24/2026

New project about llm hallucination [P]

Dieser Inhalt stellt ein neues Nebenprojekt und dessen GitHub-Repository vor, das sich auf die Minderung von LLM-Halluzinationen mittels einer neuartigen Methode des kontrastiven Samplings und selektiven Trainings konzentriert. Die Kernidee behandelt Halluzination als ein Präferenzproblem, indem sie selbstgenerierte negative Beispiele und divergenzbasiertes, selektives Lernen nutzt, um korrekte Antworten zu fördern und falsche zu unterdrücken.

hallucination model training natural language processing AI safety

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Trained transformer-based chess models to play like humans (including thinking time) [P]

Ein Entwickler trainierte transformer-basierte Deep-Learning-Modelle, um Schach wie Menschen über verschiedene Bewertungsbereiche hinweg zu spielen, einschließlich der Vorhersage der Denkzeit. Die Modelle wurden mit Lichess-Daten trainiert und erreichten trotz ihrer geringen Größe eine mit MAIA-3 vergleichbare Genauigkeit.

AI models deep learning chess AI model training

RESEARCH↑ trendingReddit r/LocalLLaMA·vor 25T

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview ist ein effizientes wissenschaftliches multimodales Basismodell mit 35 Milliarden Parametern, das durch die Erforschung von Aufgabenskalierung und End-to-End-Training eine Leistung erzielt, die mit trillionen-Parameter-Modellen vergleichbar ist. Es zeichnet sich in Hunderten professioneller wissenschaftlicher Aufgaben aus und behält dabei starke allgemeine Denk-, multimodale Verständnis- und Agentenfähigkeiten bei.

AI models multimodal AI model training Foundation Models

internlm/Intern-S2-Preview · Hugging Face

ARTICLE↑ trendingReddit r/MachineLearning·5/7/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Ein Benutzer mit einem Datensatz von 150.000 Stuhlbildern sucht nach Best Practices für das Training eines Computer-Vision-Modells. Er hinterfragt seinen aktuellen manuellen Überprüfungsworkflow und sucht nach intelligenteren, skalierbareren Ansätzen zur Sicherstellung der Daten- und Annotationsqualität.

dataset-quality model training machine learning computer vision

RESEARCHarXiv CS.LG·vor 20T

Simply Stabilizing the Loop via Fully Looped Transformer

Looped Transformer bieten eine Möglichkeit, die Modellleistung durch iterative Wiederverwendung von Blöcken ohne Erhöhung der Parameteranzahl zu verbessern, leiden jedoch unter Trainingsinstabilität bei höheren Schleifeniterationen. Diese Instabilität wird auf Gradientenoszillation und Restexplosion zurückgeführt, was zur Entwicklung des Fully Looped Transformer führte, der eine vollständig verschachtelte Architektur und Attention Injection einführt.

neural networks AI architecture deep learning model training

RESEARCHarXiv CS.LG·5/1/2026

Monitoring Neural Training with Topology: A Footprint-Predictable Collapse Index

Ein neuer topologiebasierter Monitor, der Collapse Index (CI), wird vorgeschlagen, um repräsentativen Kollaps im neuronalen Training frühzeitig zu erkennen. Er nutzt schnelle, inkrementelle Updates, um ein frühzeitiges Warnsignal mit geringer Latenz für Interventionen beim LLM-Fine-Tuning und KGE-Training bereitzustellen.

neural networks monitoring topology model training

RESEARCHDEV.to AI·5/6/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Dieser Inhalt untersucht fortgeschrittene Techniken zur Optimierung des neuronalen Netzwerktrainings, insbesondere im Hinblick auf die Mikro-Batch-Verarbeitung. Er beschreibt die Anwendung von Batch-Kanal-Normalisierung und Gewichtungsstandardisierung zur Verbesserung der Modellleistung und -stabilität bei kleinen Batch-Größen.

neural networks batch-normalization Optimization deep learning

RESEARCHarXiv CS.CL·5/4/2026

RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners

RSAT ist eine neue Methode, die kleine Sprachmodelle (SLMs) trainiert, um eine getreue, schrittweise Argumentation für Tabellenfragen zu erstellen, die mit zellgenauen Zitaten untermauert ist. Sie verbessert die Treue erheblich (3,7-fach) und erreicht eine nahezu perfekte Zitiergültigkeit, indem die Attribuierung in den Denkprozess integriert wird.

language models attribution Table Reasoning model training

RESEARCHarXiv CS.LG·4/21/2026

Annotation Entropy Predicts Per-Example Learning Dynamics in LoRA Fine-Tuning

Diese Forschung zeigt, dass LoRA-Fine-Tuning bei umstrittenen Beispielen ein „Entlernen“ bewirkt, wobei eine hohe AnnotatorenUneinigkeit mit einem Anstieg des Verlusts während des Trainings korreliert. Dieses Muster unterscheidet sich vom vollständigen Fine-Tuning und wird konsistent über mehrere Modelle und Datensätze hinweg beobachtet.

model training machine learning NLP Fine-tuning

ARTICLEDEV.to AI·vor 6T

hat Makes a Good SFT Sample (And Why Most Synthetic Datasets Get It Wrong)

Viele feinabgestimmte Sprachmodelle zeigen eine schlechtere Leistung aufgrund minderwertiger synthetischer Daten. Das Problem liegt nicht in der Trainingskonfiguration, sondern im Fehlen von Mechanismen zur Fehlerfilterung während der Erzeugung synthetischer Daten.

synthetic data LLMs model training Fine-tuning

DOCAWS Machine Learning Blog·vor 7T

The art and science of hyperparameter optimization on Amazon Nova Forge

Dieser Beitrag behandelt die Hyperparameter-Optimierung auf Amazon Nova Forge und erläutert, wie man die Verbesserung der domänenspezifischen Leistung mit den allgemeinen Fähigkeiten eines Modells in Einklang bringt. Er behandelt Anpassungsstrategien, die Konfiguration von Trainingsparametern und wie häufige Fehler vermieden werden können.

Amazon Nova Forge hyperparameter optimization learning model training

RESEARCHDEV.to AI·5/10/2026

Distillation that keeps confidence honest

Traditionelle On-Policy-Destillation (OPD) führt dazu, dass kleinere Schülermodelle übermäßiges Vertrauen zeigen, da das größere Lehrermodell Zugang zu privilegiertem Kontext hat. Neue Forschung formalisiert diese Diskrepanz und schlägt CaOPD vor, um diese Gewissheitsillusion ohne Einbußen bei der Genauigkeit zu korrigieren.

Confidence Calibration distillation model training machine learning

RESEARCHarXiv CS.AI·5/6/2026

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Diese Forschung stellt Terminus-4B vor, ein feinabgestimmtes kleines Sprachmodell, um dessen Fähigkeit zu untersuchen, Frontier-LLMs bei agentischen Terminalausführungsaufgaben zu ersetzen. Das Modell wird mittels SFT und RL mit rubrikbasierten LLM-als-Richter-Belohnungen nachtrainiert.

LLMs model training performance evaluation Small Language Models

ARTICLEThe AI Epiphany (YouTube)·9/16/2024

Imbue - training a 70B model from scratch! (w/ Bowei - head of infra)

Dieser Inhalt behandelt Imbues ehrgeiziges Projekt, ein 70B KI-Modell komplett von Grund auf neu zu trainieren. Es zeigt Bowei, den Leiter der Infrastruktur, der Einblicke in die Herausforderungen und Prozesse eines so groß angelegten Unterfangens gibt.

model training Imbue infrastructure large language models

Imbue - training a 70B model from scratch! (w/ Bowei - head of infra)

ARTICLEHugging Face Blog·3/3/2026

PRX Part 3 — Training a Text-to-Image Model in 24h!

Este é o terceiro episódio da série PRX, focado no desafio de treinar um modelo de inteligência artificial capaz de gerar imagens a partir de descrições textuais. O artigo propõe explorar como essa tarefa complexa pode ser realizada em um período otimizado de 24 horas.

Text-to-image deep learning model training machine learning

DOCHugging Face Blog·4/16/2026

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

Dieser Inhalt bespricht das Training und die Feinabstimmung multimodaler Embedding- und Reranker-Modelle. Dabei wird die Sentence Transformers-Bibliothek genutzt, um deren Leistung zu optimieren.

Finetuning embedding models multimodal AI model training