← heapsort-ai

model training

16 items

RESEARCH↑ trendingReddit r/MachineLearning·4/24/2026

New project about llm hallucination [P]

Dieser Inhalt stellt ein neues Nebenprojekt und dessen GitHub-Repository vor, das sich auf die Minderung von LLM-Halluzinationen mittels einer neuartigen Methode des kontrastiven Samplings und selektiven Trainings konzentriert. Die Kernidee behandelt Halluzination als ein Präferenzproblem, indem sie selbstgenerierte negative Beispiele und divergenzbasiertes, selektives Lernen nutzt, um korrekte Antworten zu fördern und falsche zu unterdrücken.

New project about llm hallucination [P]
45
RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Trained transformer-based chess models to play like humans (including thinking time) [P]

Ein Entwickler trainierte transformer-basierte Deep-Learning-Modelle, um Schach wie Menschen über verschiedene Bewertungsbereiche hinweg zu spielen, einschließlich der Vorhersage der Denkzeit. Die Modelle wurden mit Lichess-Daten trainiert und erreichten trotz ihrer geringen Größe eine mit MAIA-3 vergleichbare Genauigkeit.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·vor 25T

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview ist ein effizientes wissenschaftliches multimodales Basismodell mit 35 Milliarden Parametern, das durch die Erforschung von Aufgabenskalierung und End-to-End-Training eine Leistung erzielt, die mit trillionen-Parameter-Modellen vergleichbar ist. Es zeichnet sich in Hunderten professioneller wissenschaftlicher Aufgaben aus und behält dabei starke allgemeine Denk-, multimodale Verständnis- und Agentenfähigkeiten bei.

internlm/Intern-S2-Preview · Hugging Face
42
RESEARCHarXiv CS.LG·vor 20T

Simply Stabilizing the Loop via Fully Looped Transformer

Looped Transformer bieten eine Möglichkeit, die Modellleistung durch iterative Wiederverwendung von Blöcken ohne Erhöhung der Parameteranzahl zu verbessern, leiden jedoch unter Trainingsinstabilität bei höheren Schleifeniterationen. Diese Instabilität wird auf Gradientenoszillation und Restexplosion zurückgeführt, was zur Entwicklung des Fully Looped Transformer führte, der eine vollständig verschachtelte Architektur und Attention Injection einführt.

29
RESEARCHarXiv CS.CL·5/4/2026

RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners

RSAT ist eine neue Methode, die kleine Sprachmodelle (SLMs) trainiert, um eine getreue, schrittweise Argumentation für Tabellenfragen zu erstellen, die mit zellgenauen Zitaten untermauert ist. Sie verbessert die Treue erheblich (3,7-fach) und erreicht eine nahezu perfekte Zitiergültigkeit, indem die Attribuierung in den Denkprozess integriert wird.

27
DOCAWS Machine Learning Blog·vor 7T

The art and science of hyperparameter optimization on Amazon Nova Forge

Dieser Beitrag behandelt die Hyperparameter-Optimierung auf Amazon Nova Forge und erläutert, wie man die Verbesserung der domänenspezifischen Leistung mit den allgemeinen Fähigkeiten eines Modells in Einklang bringt. Er behandelt Anpassungsstrategien, die Konfiguration von Trainingsparametern und wie häufige Fehler vermieden werden können.

27