Fine-tuning

59 items

DOCHugging Face Blog·vor 5T

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

Dieser Inhalt bietet eine Anleitung zum Fine-Tuning des Nemotron 3.5 Automatic Speech Recognition (ASR) Modells. Ziel ist es, Benutzern zu helfen, das Modell für bestimmte Sprachen, Domänen oder Akzente anzupassen und seine Leistung zu optimieren.

learning Nemotron 3.5 AI ASR

RESEARCHarXiv CS.LG·vor 22T

TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination

Dieses Papier stellt TeamTR vor, ein Trust-Region-Framework zur Feinabstimmung von Multi-Agenten-LLM-Systemen, das strukturelle Fehler bei der sequentiellen Feinabstimmung adressiert. Es beweist, dass eine veraltete Belegungsevaluation eine quadratische Strafe mit der Anzahl der Agenten nach sich zieht und die Leistung im Durchschnitt um 7,1% verbessert.

Multi-agent LLMs LLM coordination Trust-region method Fine-tuning

ARTICLEDEV.to AI·4/22/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) wird als die führende PEFT-Methode vorgestellt, die die effiziente Anpassung riesiger LLMs wie Llama 3 ohne umfangreiche Hardware-Ressourcen ermöglicht. Der Beitrag verspricht, die mathematische Intuition von LoRA, das Konzept der "intrinsischen Dimension" und seine transformative Bedeutung für KI-Ingenieure zu beleuchten.

LLMs deep learning Fine-tuning PEFT

RESEARCHarXiv CS.CL·4/20/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Große Sprachmodelle neigen dazu, faktisch inkorrekte Aussagen zu halluzinieren, ein Problem, das durch überwachtes Fine-Tuning (SFT) verstärkt wird, welches das vorab erworbene Wissen abbaut. Diese Forschung schlägt eine selbst-destillationsbasierte SFT-Methode vor, inspiriert vom kontinuierlichen Lernen, um Halluzinationen durch die Regularisierung der Ausgabe-Distributionsdrift zu mindern, während neue Fakten effektiv gelernt werden.

hallucinations large language models Fine-tuning Continual Learning

RESEARCHarXiv CS.AI·4/17/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Diese Arbeit stellt Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Post-Training-Framework für große Sprachmodelle. Es begegnet intrinsischen Einschränkungen des überwachten Fine-Tunings (SFT), wie der Single-Path-Abhängigkeit und dem Entropiekollaps, mittels Group Advantage Learning und Dynamic Coefficient Rectification.

LLMs reinforcement learning post-training machine learning

RESEARCHarXiv CS.LG·4/9/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMs MoE Communication Fine-tuning

RESEARCHarXiv CS.LG·4/21/2026

Annotation Entropy Predicts Per-Example Learning Dynamics in LoRA Fine-Tuning

Diese Forschung zeigt, dass LoRA-Fine-Tuning bei umstrittenen Beispielen ein „Entlernen“ bewirkt, wobei eine hohe AnnotatorenUneinigkeit mit einem Anstieg des Verlusts während des Trainings korreliert. Dieses Muster unterscheidet sich vom vollständigen Fine-Tuning und wird konsistent über mehrere Modelle und Datensätze hinweg beobachtet.

model training machine learning NLP Fine-tuning

RESEARCHarXiv CS.LG·vor 20T

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA schlägt eine neue Methode zur Feinabstimmung von Mixture-of-Experts (MoE)-Modellen vor, indem Low-Rank Adaptation (LoRA)-Module nur an den am häufigsten aktivierten Experten jeder Schicht angebracht werden. Diese Technik reduziert die trainierbaren Parameter erheblich und verbessert die Leistung, was auf eine strukturierte Regularisierung zurückzuführen ist, die die vortrainierte Expertenspezialisierung bewahrt.

LLMs MoE AI Fine-tuning

ARTICLEDEV.to AI·4/26/2026

RAG vs Fine-tuning vs AI Agents: Which LLM Architecture to Choose in 2026?

Dieser Artikel analysiert die Wahl zwischen RAG, Fine-Tuning und KI-Agenten für LLM-Projekte und deutet an, dass oft eine Kombination erforderlich ist. Er bietet einen praktischen Leitfaden, welche Architektur je nach Projektanforderungen wie Datenquelle, Aktionen und Budget zu bevorzugen ist.

RAG LLM architectures Fine-tuning AI development

RESEARCHarXiv CS.CL·4/21/2026

QU-NLP at QIAS 2026: Multi-Stage QLoRA Fine-Tuning for Arabic Islamic Inheritance Reasoning

Der Artikel beschreibt die mehrstufige QLoRA-Feinabstimmungsstrategie von QU-NLP für das arabisch-islamische Erbschaftsargumentation unter Verwendung von Qwen3-4B. Das Modell erreichte einen MIR-E-Score von 90 % und zeigte eine wettbewerbsfähige Leistung bei minimalem Rechenaufwand.

LLMs Legal AI Arabic AI NLP

DOCHugging Face Blog·5/8/2026

MedQA: Fine-Tuning a Clinical AI on AMD ROCm — No CUDA Required

Dieser Inhalt beschreibt das Fine-Tuning eines klinischen KI-Modells, MedQA, auf der AMD ROCm-Plattform. Er hebt hervor, dass diese Aufgabe ohne CUDA durchgeführt werden kann, was eine wichtige Alternative für die KI-Entwicklung bietet.

GPU hardware-compatibility Fine-tuning medical AI

ARTICLEDEV.to AI·4/18/2026

I Thought Fine-Tuning Needed an ML Team. I Was Wrong.

Dieser Artikel beleuchtet, wie Nutzer-„Daumen runter“-Feedback unschätzbare reale Trainingsdaten für KI-Systeme liefert, die oft von Teams übersehen werden. Er räumt mit dem Irrglauben auf, dass KI-Feinabstimmung immer teuer und komplex ist, und schlägt eine vereinfachte Feedbackschleife für die Produktentwicklung vor.

User feedback Fine-tuning AI development data collection

ARTICLEDEV.to AI·vor 28T

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Dieser Artikel beschreibt den Fine-Tuning-Prozess von OpenCLIP ViT-B/32 für Architekturstile, wodurch eine Genauigkeitssteigerung von 26 Prozentpunkten erzielt wurde. Der Autor konzentriert sich auf die kritischen Entscheidungen vor und nach dem Trainingszyklus, die für dieses signifikante Ergebnis verantwortlich waren, anstatt auf die Optimierung des Trainingszyklus selbst.

CLIP Vision-Language Models machine learning computer vision

DOCAWS Machine Learning Blog·vor 7T

The art and science of hyperparameter optimization on Amazon Nova Forge

Dieser Beitrag behandelt die Hyperparameter-Optimierung auf Amazon Nova Forge und erläutert, wie man die Verbesserung der domänenspezifischen Leistung mit den allgemeinen Fähigkeiten eines Modells in Einklang bringt. Er behandelt Anpassungsstrategien, die Konfiguration von Trainingsparametern und wie häufige Fehler vermieden werden können.

Amazon Nova Forge hyperparameter optimization learning model training

RESEARCHDEV.to AI·5/7/2026

Post‑training tricks cut LLM cost without losing ability

Jüngste Arbeiten zeigen, dass Post-Training-Tricks die Kosten und den Speicherbedarf von LLMs erheblich senken können, ohne Fähigkeiten einzubüßen. Dazu gehören die Anpassung synthetischer Daten an den Stil eines Schülermodells und die Optimierung des Key-Value (KV)-Caches, wodurch erhebliche Einsparungen ohne typische Leistungseinbußen erzielt werden.

Optimization cost reduction efficiency Fine-tuning

RESEARCHarXiv CS.LG·4/15/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Dieses Papier beschreibt einen Versuch, Verhaltensdispositionen mittels einer Distillations-Pipeline in kleine Sprachmodelle (0,6B-2,3B Parameter) zu destillieren. Anfänglich gemeldete Fortschritte wurden später aufgrund von Evaluierungsartefakten widerlegt, was zu einem negativen Ergebnis für die Kernhypothese führte und drei nachfolgende Untersuchungsstränge nach sich zog.

Negative Results Model Distillation Behavioral Dispositions large language models

RESEARCHarXiv CS.LG·4/28/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Diese Forschung stellt die Annahme in Frage, dass PEFT gleich Speichereffizienz für On-Device-LLMs ist, und zeigt, dass bestehende Methoden zu Out-of-Memory-Fehlern führen können. Sie stellt LARS vor, ein neues Framework, das den Speicherverbrauch von der Sequenzlänge entkoppelt, indem es den Aktivierungsunterraum einschränkt, und den Speicherbedarf um durchschnittlich 33,54% reduziert.

Memory Optimization on-device AI Fine-tuning PEFT

RESEARCHarXiv CS.LG·5/1/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

language models model robustness Fine-tuning Adversarial Training

RESEARCHarXiv CS.CL·4/9/2026

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Este estudo avalia metodologias de Large Language Models (LLM) – Fine-Tuning, RAG e uma abordagem Híbrida – para construir uma base de conhecimento de Análise de Causa Raiz (RCA) a partir de tickets de suporte. Os experimentos com um conjunto de dados industrial real demonstram que a base de conhecimento gerada acelera as tarefas de RCA e melhora a resiliência da rede.

RAG knowledge base Fine-tuning LLM

RESEARCHarXiv CS.CL·4/17/2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Diese Forschung schlägt TESSY, ein Framework zur Datensynthese durch Lehrer-Schüler-Kooperation, vor, um Leistungsabfälle beim Fine-Tuning von Reasoning-Modellen mit von Lehrern generierten Daten zu beheben. TESSY ermöglicht die Generierung synthetischer Sequenzen, die fortschrittliches Reasoning vom Lehrer erben und gleichzeitig die stilistische Konsistenz mit der Verteilung des Schülermodells beibehalten.

data synthesis machine learning code generation large language models