← heapsort-ai

Fine-tuning

59 items

RESEARCHarXiv CS.CL·vor 20Std

Evaluating Hallucinations in Domain-Adapted Large Language Models

Diese Studie untersucht Halluzinationen in domänenadaptierten Großen Sprachmodellen, insbesondere Llama-2, das mit dem Lamini-Datensatz feingetunt wurde. Es wurde festgestellt, dass seine Fähigkeit, über neue domänenspezifische Informationen genau zu argumentieren und sich daran zu erinnern, begrenzt bleibt, was zu Halluzinationen und einer Tendenz zur Übergenerierung führt.

55
RESEARCHarXiv CS.CL·vor 20Std

Post-training is (Massive) Supervised Learning

Dieses Papier argumentiert, dass das vorherrschende Post-Trainings-Paradigma für LLMs, das SFT und RL umfasst, effektiv zu dem Ansatz "vorab trainieren und dann feinabstimmen" zurückkehrt, indem Modelle explizit auf gewünschte Verhaltensweisen und spezifische Benchmarks zugeschnitten werden. Empirische Beweise zeigen, dass von Grund auf neu post-trainierte Modelle eine nicht-triviale Leistung auf Reasoning-Datensätzen erzielen können.

55
RESEARCHarXiv CS.CL·vor 20Std

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Diese Studie schlägt eine unüberwachte Methode vor, um gemeinschaftsspezifischen Slang und Entitäten durch die Analyse des Ausmaßes der semantischen Verschiebung zu identifizieren. Semantische Verschiebung wird als die Entwicklung der kodierten Repräsentation eines Wortes nach dem Fine-Tuning eines vortrainierten Großen Sprachmodells (LLM) auf einem gemeinschaftsspezifischen Textkorpus definiert.

54
ARTICLE↑ trendingReddit r/MachineLearning·4/18/2026

Trials and tribulations fine-tuning & deploying Gemma-4 [P]

Ein ML-Team dokumentierte die technischen Herausforderungen beim Fine-Tuning und der Bereitstellung von Gemma-4. Schlüsselprobleme waren die Inkompatibilität von PEFT mit Gemma 4s benutzerdefinierten Layern, das stille Unterbrechen der KV-Sharing-Attention durch SFTTrainer sowie DeepSpeed ZeRO-3, das halb-leere LoRA-Adapter speicherte.

46
ARTICLE↑ trendingReddit r/LocalLLaMA·4/10/2026

[Model Release] I trained a 9B model to be agentic Data Analyst (Qwen3.5-9B + LoRA). Base model failed 100%, this LoRA completes 89% of workflows without human intervention.

Um desenvolvedor treinou um modelo Qwen3.5-9B com LoRA para atuar como analista de dados agente, focando em autonomia através de pesos. O modelo alcançou 89% de conclusão de fluxos de trabalho de ponta a ponta sem intervenção humana, superando a falha total do modelo base.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

Der Autor wechselt vom Fine-Tuning dichter Transformer zu NVIDIAs Nemotron 3 Nano (einer Hybrid Mamba-Attention-MoE Architektur) für Multi-Task-Reasoning. Er sucht Ratschläge, wie sich die Hybridarchitektur auf das Standard-LoRA-Fine-Tuning auswirkt, da seine bisherige Erfahrung auf dichte Modelle beschränkt ist.

42
RESEARCHarXiv CS.AI·vor 5T

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.

33
RESEARCHarXiv CS.LG·4/20/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia führt eine gradientengesteuerte Schichtauswahlmethode für das LoRA-Feintuning ein, die aufgabenrelevante Schichten identifiziert und Adapter asymmetrisch zuweist. Diese Methode erreicht eine Trainingsbeschleunigung von 15-28% über verschiedene große Sprachmodelle und Architekturen hinweg, bei weitgehend gleichbleibender Downstream-Leistung.

32
RESEARCHarXiv CS.LG·4/21/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Diese Forschung stellt ein rubrikbasiertes Generatives Belohnungsmodell (GRM) vor, um das verstärkte Fein-Tuning (RFT) für LLM-Agenten bei Software-Engineering-Aufgaben (SWE) zu verbessern. Durch die Bereitstellung reichhaltigerer Lernsignale jenseits binärer Endbelohnungen formt dieser Ansatz Zwischenverhalten und verbessert die Qualität des Lösungsprozesses erheblich.

31
RESEARCHarXiv CS.LG·4/22/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) ist eine neue, wahrscheinlichkeitstheorie-freie Methode zum Fine-Tuning maskierter Diffusions-Sprachmodelle (dLLMs), die das Problem der nicht bestimmbaren marginalen Wahrscheinlichkeiten löst. Sie formuliert das Fine-Tuning als Zustandsabgleich um und verwendet ein gewichtetes Kreuzentropie-Ziel mit Kontrollvariablen, wodurch sie signifikante Verbesserungen bei Aufgaben wie Sudoku und Countdown erzielt.

30
RESEARCHarXiv CS.CL·4/20/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Diese Forschung stellt ein dateneffizientes Fine-Tuning-Framework vor, um Reasoning-Modellen beizubringen, effektiv Code-Switching für Denkaufgaben zu nutzen. Es identifiziert vorteilhafte Code-Switching-Verhaltensweisen durch die systematische Analyse diverser Reasoning-Spuren, statt dies als Fehler zu betrachten.

29
RESEARCHarXiv CS.LG·4/15/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) ist eine neuartige Methode, um Low-Rank Adaptation (LoRA) für das Fine-Tuning großer Sprachmodelle zu verbessern. Sie führt eine strukturierte Polynomexpansion in den Niedrigrang-Faktorraum ein, um reichhaltigere nichtlineare Interaktionen höherer Ordnung zu modellieren, wodurch LoRAs lineare Beschränkungen überwunden werden, ohne den Rang oder die Inferenzkosten zu erhöhen.

28