← heapsort-ai

Fine-tuning

59 items

RESEARCHarXiv CS.LG·vor 22T

TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination

Dieses Papier stellt TeamTR vor, ein Trust-Region-Framework zur Feinabstimmung von Multi-Agenten-LLM-Systemen, das strukturelle Fehler bei der sequentiellen Feinabstimmung adressiert. Es beweist, dass eine veraltete Belegungsevaluation eine quadratische Strafe mit der Anzahl der Agenten nach sich zieht und die Leistung im Durchschnitt um 7,1% verbessert.

28
ARTICLEDEV.to AI·4/22/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) wird als die führende PEFT-Methode vorgestellt, die die effiziente Anpassung riesiger LLMs wie Llama 3 ohne umfangreiche Hardware-Ressourcen ermöglicht. Der Beitrag verspricht, die mathematische Intuition von LoRA, das Konzept der "intrinsischen Dimension" und seine transformative Bedeutung für KI-Ingenieure zu beleuchten.

27
RESEARCHarXiv CS.CL·4/20/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Große Sprachmodelle neigen dazu, faktisch inkorrekte Aussagen zu halluzinieren, ein Problem, das durch überwachtes Fine-Tuning (SFT) verstärkt wird, welches das vorab erworbene Wissen abbaut. Diese Forschung schlägt eine selbst-destillationsbasierte SFT-Methode vor, inspiriert vom kontinuierlichen Lernen, um Halluzinationen durch die Regularisierung der Ausgabe-Distributionsdrift zu mindern, während neue Fakten effektiv gelernt werden.

27
RESEARCHarXiv CS.AI·4/17/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Diese Arbeit stellt Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Post-Training-Framework für große Sprachmodelle. Es begegnet intrinsischen Einschränkungen des überwachten Fine-Tunings (SFT), wie der Single-Path-Abhängigkeit und dem Entropiekollaps, mittels Group Advantage Learning und Dynamic Coefficient Rectification.

27
RESEARCHarXiv CS.LG·4/9/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

27
RESEARCHarXiv CS.LG·vor 20T

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA schlägt eine neue Methode zur Feinabstimmung von Mixture-of-Experts (MoE)-Modellen vor, indem Low-Rank Adaptation (LoRA)-Module nur an den am häufigsten aktivierten Experten jeder Schicht angebracht werden. Diese Technik reduziert die trainierbaren Parameter erheblich und verbessert die Leistung, was auf eine strukturierte Regularisierung zurückzuführen ist, die die vortrainierte Expertenspezialisierung bewahrt.

27
ARTICLEDEV.to AI·vor 28T

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Dieser Artikel beschreibt den Fine-Tuning-Prozess von OpenCLIP ViT-B/32 für Architekturstile, wodurch eine Genauigkeitssteigerung von 26 Prozentpunkten erzielt wurde. Der Autor konzentriert sich auf die kritischen Entscheidungen vor und nach dem Trainingszyklus, die für dieses signifikante Ergebnis verantwortlich waren, anstatt auf die Optimierung des Trainingszyklus selbst.

27
DOCAWS Machine Learning Blog·vor 7T

The art and science of hyperparameter optimization on Amazon Nova Forge

Dieser Beitrag behandelt die Hyperparameter-Optimierung auf Amazon Nova Forge und erläutert, wie man die Verbesserung der domänenspezifischen Leistung mit den allgemeinen Fähigkeiten eines Modells in Einklang bringt. Er behandelt Anpassungsstrategien, die Konfiguration von Trainingsparametern und wie häufige Fehler vermieden werden können.

27
RESEARCHarXiv CS.LG·4/15/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Dieses Papier beschreibt einen Versuch, Verhaltensdispositionen mittels einer Distillations-Pipeline in kleine Sprachmodelle (0,6B-2,3B Parameter) zu destillieren. Anfänglich gemeldete Fortschritte wurden später aufgrund von Evaluierungsartefakten widerlegt, was zu einem negativen Ergebnis für die Kernhypothese führte und drei nachfolgende Untersuchungsstränge nach sich zog.

27
RESEARCHarXiv CS.LG·4/28/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Diese Forschung stellt die Annahme in Frage, dass PEFT gleich Speichereffizienz für On-Device-LLMs ist, und zeigt, dass bestehende Methoden zu Out-of-Memory-Fehlern führen können. Sie stellt LARS vor, ein neues Framework, das den Speicherverbrauch von der Sequenzlänge entkoppelt, indem es den Aktivierungsunterraum einschränkt, und den Speicherbedarf um durchschnittlich 33,54% reduziert.

27
RESEARCHarXiv CS.LG·5/1/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

27
RESEARCHarXiv CS.CL·4/9/2026

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Este estudo avalia metodologias de Large Language Models (LLM) – Fine-Tuning, RAG e uma abordagem Híbrida – para construir uma base de conhecimento de Análise de Causa Raiz (RCA) a partir de tickets de suporte. Os experimentos com um conjunto de dados industrial real demonstram que a base de conhecimento gerada acelera as tarefas de RCA e melhora a resiliência da rede.

27
RESEARCHarXiv CS.CL·4/17/2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Diese Forschung schlägt TESSY, ein Framework zur Datensynthese durch Lehrer-Schüler-Kooperation, vor, um Leistungsabfälle beim Fine-Tuning von Reasoning-Modellen mit von Lehrern generierten Daten zu beheben. TESSY ermöglicht die Generierung synthetischer Sequenzen, die fortschrittliches Reasoning vom Lehrer erben und gleichzeitig die stilistische Konsistenz mit der Verteilung des Schülermodells beibehalten.

27