← heapsort-ai

AI Training

44 items

RESEARCHarXiv CS.CL·4/27/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Diese Arbeit untersucht, ob Ergebnisbelohnungen beim Reinforcement Learning für Chain-of-Thought-Reasoning eine überprüfbare oder kausal wichtige Argumentation in LLMs garantieren. Unter Einführung der Metriken CIR und SR stellen die Autoren fest, dass RLVR zwar die Genauigkeit verbessert, aber CIR oder SR nicht zuverlässig steigert, und eine geringe Menge SFT dies beheben kann.

27
RESEARCHarXiv CS.LG·5/8/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) führt ein koordinatorfreies Trainingsparadigma für Teams kleinerer, effizienterer LLMs ein, das skalierbare, dezentrale Updates ermöglicht. Dieser theoretische Rahmen gewährleistet eine monotone Verbesserung, indem er die Besetzungsdrift mit agentenbezogenen KL-Vertrauensregionen isoliert.

27
RESEARCHarXiv CS.LG·vor 22T

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Diese Forschung befasst sich mit dem Problem der schlechten Kreditzuweisung im Reinforcement Learning für mehrstufiges Denken mit großen Sprachmodellen, verursacht durch spärliche Endbelohnungen, die zu hoher Gradientenvarianz und instabilem Training führen. Sie schlägt einen kontrafaktischen Vergleichs-basierten Kreditzuweisungsrahmen und die Implizite Verhaltensrichtlinienoptimierung (IBPO) vor, um schrittsensitive Lernsignale zu erzeugen, was die Trainingsstabilität und Leistung erheblich verbessert.

27
RESEARCHarXiv CS.CL·vor 27T

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Dieses Papier schlägt die Verifizierbare Prozessüberwachung (VPS) vor, ein Post-Training-Framework zur gemeinsamen Optimierung der Vorhersagegenauigkeit und der Argumentationsqualität von Sprachmodellen. VPS verwendet überwachtes Fine-Tuning, um ein strukturiertes Argumentationsformat zu induzieren, das Zwischenbehauptungen anhand von Ground-Truth-Signalen mit adaptiver Belohnungsgewichtung bewertet.

27
RESEARCHarXiv CS.LG·vor 27T

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Der Artikel stellt die Multi-Rollout On-Policy Distillation (MOPD) vor, ein Framework, das die lokalen Rollout-Gruppen eines Schülers nutzt, um informativere Lehrersignale für das Post-Training von LLMs zu konstruieren. MOPD konditioniert den Lehrer sowohl auf erfolgreiche als auch auf fehlgeschlagene Peer-Rollouts, wobei Erfolge positive Evidenz für gültige Denkmuster liefern und Misserfolge strukturierte negative Evidenz für vermeidbare Fehler.

27
ARTICLEDEV.to AI·5/8/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Ein Ingenieurteam führte vier DPO-Trainingsiterationen mit Qwen2.5-Coder-7B-Instruct durch, um dessen HumanEval pass@1-Score von 87,20% zu übertreffen. Die ersten drei Versuche scheiterten aufgrund von Pipeline-Fehlern, die von bestehenden Qualitätssicherungen nicht erkannt wurden, wobei die vierte Iteration schließlich eine Verbesserung von +0,61pp erzielte.

27
ARTICLEDEV.to AI·4/19/2026

AI Is Bad at Disagreeing. I Spent Weeks Trying to Fix That.

Ein Autor entwickelte ein KI-Tool zur Generierung von Markendebatten, stellte jedoch fest, dass die KIs sich konsequent weigerten, zu widersprechen, und stattdessen höfliche, einvernehmliche Diskussionen führten. Dieses Verhalten wird darauf zurückgeführt, dass moderne Sprachmodelle stark durch RLHF trainiert werden, um hilfreich zu sein und Konflikte zu entschärfen, was ihre Fähigkeit als Kontrahenten zu agieren, behindert.

27
RESEARCHarXiv CS.CL·4/6/2026

Train Yourself as an LLM: Exploring Effects of AI Literacy on Persuasion via Role-playing LLM Training

Este estudo apresenta o LLMimic, um tutorial gamificado e interativo que permite aos participantes simular o treinamento de um LLM para aumentar a alfabetização em IA. A pesquisa avalia como essa intervenção proativa mitiga a persuasão por IA em cenários realistas, como doações ou recomendações, em comparação com um grupo de controle.

27
ARTICLEDEV.to AI·5/5/2026

[Day 2] I Trained an AI on 22 Photos of My Cat — Now It Draws Her in Any Scene

Der Autor trainierte eine KI mit 22 Fotos seiner Katze, damit das Modell Bilder des Tieres in beliebigen Szenen generieren kann, unter Verwendung der LoRA-Technik. Dieser Artikel beschreibt den zweiten Tag des Experiments, wobei der Fokus auf der Vorbereitung und Auswahl der Fotos liegt, um der KI die charakteristischen Merkmale der Katze beizubringen.

24
ARTICLEDEV.to AI·vor 14T

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Dieser Artikel, Teil einer Reihe über Reinforcement Learning with Human Feedback (RLHF), beschreibt, wie ein vorab trainiertes Belohnungsmodell zum Trainieren eines ursprünglichen KI-Modells eingesetzt wird. Es wird erklärt, dass neue Prompts verwendet werden, das ursprüngliche Modell Antworten generiert und das Belohnungsmodell Feedback-Signale liefert, wodurch das ursprüngliche Modell lernt, hilfreichere und menschengerechtere Ausgaben zu erzeugen.

24
DOCDEV.to AI·vor 20T

AI Stack Course Online | AI Stack Training

Dieser Inhalt untersucht die Bedeutung von KI-Stack-Wissen für Einsteigerpositionen und beschreibt einen konzeptionellen Fünf-Schritte-Workflow von der Datenerfassung bis zur kontinuierlichen Verbesserung. Er betont, wie das Verständnis dieses Prozesses Berufsanfängern ermöglicht, KI-Projekte effektiver zu unterstützen.

23
ARTICLEDEV.to AI·4/23/2026

Artificial Intelligence Training in Patiala | Join Now

Excellence Technology in Patiala bietet praktische KI-Schulungen an, die maschinelle Lernalgorithmen, Python und Industriewerkzeuge abdecken. Das Programm zielt darauf ab, Einzelpersonen zu Datenwissenschaftlern oder KI-Entwicklern auszubilden und ihre Fähigkeiten für den Erfolg in der KI-Welt zu verbessern.

19