Fine-tuning

59 items

RESEARCHarXiv CS.CL·vor 20Std

Evaluating Hallucinations in Domain-Adapted Large Language Models

Diese Studie untersucht Halluzinationen in domänenadaptierten Großen Sprachmodellen, insbesondere Llama-2, das mit dem Lamini-Datensatz feingetunt wurde. Es wurde festgestellt, dass seine Fähigkeit, über neue domänenspezifische Informationen genau zu argumentieren und sich daran zu erinnern, begrenzt bleibt, was zu Halluzinationen und einer Tendenz zur Übergenerierung führt.

Llama-2 hallucinations Domain Adaptation large language models

RESEARCHarXiv CS.CL·vor 20Std

Post-training is (Massive) Supervised Learning

Dieses Papier argumentiert, dass das vorherrschende Post-Trainings-Paradigma für LLMs, das SFT und RL umfasst, effektiv zu dem Ansatz "vorab trainieren und dann feinabstimmen" zurückkehrt, indem Modelle explizit auf gewünschte Verhaltensweisen und spezifische Benchmarks zugeschnitten werden. Empirische Beweise zeigen, dass von Grund auf neu post-trainierte Modelle eine nicht-triviale Leistung auf Reasoning-Datensätzen erzielen können.

LLMs machine learning Benchmarking Training

RESEARCHarXiv CS.CL·vor 20Std

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Diese Studie schlägt eine unüberwachte Methode vor, um gemeinschaftsspezifischen Slang und Entitäten durch die Analyse des Ausmaßes der semantischen Verschiebung zu identifizieren. Semantische Verschiebung wird als die Entwicklung der kodierten Repräsentation eines Wortes nach dem Fine-Tuning eines vortrainierten Großen Sprachmodells (LLM) auf einem gemeinschaftsspezifischen Textkorpus definiert.

online-communities semantic-shift natural language processing large language models

NEWS↑ trendingReddit r/MachineLearning·4/21/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Chaperone-Thinking-LQ-1.0, ein 4-bit GPTQ + QLoRA-feinabgestimmtes DeepSeek-R1-32B-Modell, wurde als Open Source veröffentlicht. Es erreicht 84 % Genauigkeit auf MedQA, nahe an GPT-4o, bei einer Größe von nur ~20GB und ist 1,6x schneller als das Basismodell.

Open Source Benchmarking quantization Fine-tuning

ARTICLE↑ trendingReddit r/MachineLearning·4/18/2026

Trials and tribulations fine-tuning & deploying Gemma-4 [P]

Ein ML-Team dokumentierte die technischen Herausforderungen beim Fine-Tuning und der Bereitstellung von Gemma-4. Schlüsselprobleme waren die Inkompatibilität von PEFT mit Gemma 4s benutzerdefinierten Layern, das stille Unterbrechen der KV-Sharing-Attention durch SFTTrainer sowie DeepSpeed ZeRO-3, das halb-leere LoRA-Adapter speicherte.

MLOps Gemma 4 Fine-tuning LoRA

ARTICLE↑ trendingReddit r/LocalLLaMA·4/10/2026

[Model Release] I trained a 9B model to be agentic Data Analyst (Qwen3.5-9B + LoRA). Base model failed 100%, this LoRA completes 89% of workflows without human intervention.

Um desenvolvedor treinou um modelo Qwen3.5-9B com LoRA para atuar como analista de dados agente, focando em autonomia através de pesos. O modelo alcançou 89% de conclusão de fluxos de trabalho de ponta a ponta sem intervenção humana, superando a falha total do modelo base.

Data Analysis Agentic AI Fine-tuning LoRA

ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

Der Autor wechselt vom Fine-Tuning dichter Transformer zu NVIDIAs Nemotron 3 Nano (einer Hybrid Mamba-Attention-MoE Architektur) für Multi-Task-Reasoning. Er sucht Ratschläge, wie sich die Hybridarchitektur auf das Standard-LoRA-Fine-Tuning auswirkt, da seine bisherige Erfahrung auf dichte Modelle beschränkt ist.

LLMs multi-task reasoning AI Architectures Fine-tuning

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

First time fine-tuning, need a sanity check — 3B or 7B for multi-task reasoning? [D]

Ein autodidaktischer Nutzer, der neu im Bereich Fine-Tuning ist, sucht Rat bei der Wahl zwischen 3B- und 7B-LLM-Modellen für ein Multi-Task-Reasoning-Projekt. Das Projekt umfasst das Verständnis der zugrunde liegenden Fragen, die Beibehaltung mehrerer Perspektiven und den Umgang mit unübersichtlichen Eingaben.

LLMs model selection multi-task reasoning NLP

ARTICLE↑ trendingReddit r/LocalLLaMA·4/26/2026

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

Dieser Inhalt rezensiert das Qwen3.6 35B A3B Heretic Modell und lobt es als das beste unzensierte 35B Modell, das der Benutzer gefunden hat. Es hebt seine Fähigkeit hervor, in 24 GB VRAM zu passen, Multi-Turn-Tool-Aufrufe zu verarbeiten und potenziell höhere Benchmarks als das ursprüngliche Qwen 3.6 Modell zu erzielen.

Model Evaluation Fine-tuning LLM

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

RESEARCHarXiv CS.AI·vor 5T

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.

LLMs reinforcement learning code generation RTL Synthesis

RESEARCHarXiv CS.LG·4/20/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia führt eine gradientengesteuerte Schichtauswahlmethode für das LoRA-Feintuning ein, die aufgabenrelevante Schichten identifiziert und Adapter asymmetrisch zuweist. Diese Methode erreicht eine Trainingsbeschleunigung von 15-28% über verschiedene große Sprachmodelle und Architekturen hinweg, bei weitgehend gleichbleibender Downstream-Leistung.

Parameter-efficient fine-tuning efficiency large language models Fine-tuning

RESEARCHarXiv CS.LG·4/21/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Diese Forschung stellt ein rubrikbasiertes Generatives Belohnungsmodell (GRM) vor, um das verstärkte Fein-Tuning (RFT) für LLM-Agenten bei Software-Engineering-Aufgaben (SWE) zu verbessern. Durch die Bereitstellung reichhaltigerer Lernsignale jenseits binärer Endbelohnungen formt dieser Ansatz Zwischenverhalten und verbessert die Qualität des Lösungsprozesses erheblich.

reinforcement learning Fine-tuning Software engineering AI agents

RESEARCHarXiv CS.LG·4/22/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) ist eine neue, wahrscheinlichkeitstheorie-freie Methode zum Fine-Tuning maskierter Diffusions-Sprachmodelle (dLLMs), die das Problem der nicht bestimmbaren marginalen Wahrscheinlichkeiten löst. Sie formuliert das Fine-Tuning als Zustandsabgleich um und verwendet ein gewichtetes Kreuzentropie-Ziel mit Kontrollvariablen, wodurch sie signifikante Verbesserungen bei Aufgaben wie Sudoku und Countdown erzielt.

Diffusion Models LLMs reinforcement learning machine learning

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

Der Titel deutet darauf hin, dass das Fine-Tuning lokaler KI-Modelle unter Verwendung des Brandings

model performance AI models LLMs local models

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

RESEARCHarXiv CS.CL·4/20/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Diese Forschung stellt ein dateneffizientes Fine-Tuning-Framework vor, um Reasoning-Modellen beizubringen, effektiv Code-Switching für Denkaufgaben zu nutzen. Es identifiziert vorteilhafte Code-Switching-Verhaltensweisen durch die systematische Analyse diverser Reasoning-Spuren, statt dies als Fehler zu betrachten.

Multilingual AI Code-Switching Reasoning large language models

RESEARCHDEV.to AI·4/20/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner stellt eine längen-harmonisierende Feinabstimmungsmethode zur Optimierung von Modellen für O1-ähnliches Reasoning-Pruning vor. Diese Technik zielt darauf ab, die Denkfähigkeiten von KI-Modellen zu verbessern.

Pruning Reasoning Fine-tuning model optimization

DOCAWS Machine Learning Blog·vor 6T

Improve your agent’s tool-calling accuracy with SFT and DPO on Amazon SageMaker AI

Dieser Beitrag erklärt, wie man Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO) einsetzt, um die Genauigkeit der Tool-Aufrufe eines kleinen Sprachmodells zu verbessern. Er zeigt, wie Amazon SageMaker AI-Trainingsaufträge genutzt werden, um sich auf den Trainingscode zu konzentrieren und die Modellqualität zu bewerten.

SageMaker learning tool-calling SLM

DOCDEV.to AI·vor 16T

96. LoRA: Fine-Tune a Billion-Parameter Model on a Laptop

Der Artikel erklärt, wie die LoRA-Technik (Low-Rank Adaptation) das Fine-Tuning von Sprachmodellen mit Milliarden von Parametern auf Consumer-Hardware wie Laptops ermöglicht. Anstatt alle Parameter zu aktualisieren, fügt LoRA winzige trainierbare Module hinzu, was den GPU-Speicherbedarf drastisch reduziert.

GPU memory Fine-tuning LoRA HuggingFace

RESEARCHarXiv CS.LG·4/15/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) ist eine neuartige Methode, um Low-Rank Adaptation (LoRA) für das Fine-Tuning großer Sprachmodelle zu verbessern. Sie führt eine strukturierte Polynomexpansion in den Niedrigrang-Faktorraum ein, um reichhaltigere nichtlineare Interaktionen höherer Ordnung zu modellieren, wodurch LoRAs lineare Beschränkungen überwunden werden, ohne den Rang oder die Inferenzkosten zu erhöhen.

LLMs Low-Rank Adaptation machine learning Polynomial Expansion

DOCHugging Face Blog·vor 5T

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

Dieser Inhalt bietet eine Anleitung zum Fine-Tuning des Nemotron 3.5 Automatic Speech Recognition (ASR) Modells. Ziel ist es, Benutzern zu helfen, das Modell für bestimmte Sprachen, Domänen oder Akzente anzupassen und seine Leistung zu optimieren.

learning Nemotron 3.5 AI ASR