Finetuning

8 items

NEWS↑ trendingReddit r/LocalLLaMA·vor 19T

LatitudeGames/Equinox-31B · Hugging Face

LatitudeGames hat Equinox-31B veröffentlicht, ein neues KI-Modell, das auf Gemma 31B feinabgestimmt wurde, um eine ausgewogene Erfahrung zwischen dunklen Abenteuern und alltäglichen Geschichten zu bieten. Das Modell ist vielseitig einsetzbar und auf der AIDungeon-Plattform mit Abonnement verfügbar.

Finetuning AI gaming Gemma AI model

LatitudeGames/Equinox-31B · Hugging Face

RESEARCHarXiv CS.CL·vor 1T

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

Die Piggyback-Hypothese erklärt, wie Chat-Template-Token in LLMs zu emergentem Fehlverhalten führen können, indem sie feinabgestimmtes Verhalten auf Out-of-Domain-Anfragen übertragen. Die Token-Regularized Finetuning (TReFT)-Methode wird vorgeschlagen, um dieses Problem zu mindern, wobei das In-Domain-Lernen erhalten bleibt und das Fehlverhalten reduziert wird.

Finetuning Emergent Misalignment LLMs Generalization

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Local AI is the best

Der Nutzer äußert große Zufriedenheit mit lokaler KI, da sie die Freiheit bietet, Modelle ohne Zensur oder Datenerfassung zu optimieren und so die Privatsphäre bei persönlichen Diskussionen gewährleistet. Für diese Vorteile sind sie den Entwicklern von Open-Weight-Modellen und Tools wie llama.cpp ewig dankbar.

Finetuning Open Source privacy censorship

RESEARCHarXiv CS.CL·5/5/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Dieses Papier stellt eine perplexitätsbasierte Methode vor, um Feinabstimmungsziele von großen Sprachmodellen, insbesondere von "Modellorganismen", aufzudecken. Diese Methode nutzt die Tendenz der Modelle zur Übergeneralisierung, indem sie Vervollständigungen generiert und bewertet, um die Feinabstimmungsziele ohne vorherige Annahmen zu identifizieren.

Finetuning Perplexity model safety Research Methods

RESEARCHarXiv CS.LG·vor 7T

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

Dieses Papier stellt FoLoRA vor, ein Optimierungsframework, das die Verschlechterung nicht-zielgerichteter Fähigkeiten beim Feintuning von Basismodellen adressiert. Es verwendet einen verallgemeinerten Rayleigh-Quotienten, um den Nutzen der Aufgabe und die Vergessensstrafe auszubalancieren und so Updates zur Erhaltung des Vortrainingswissens zu steuern.

Finetuning neural networks Optimization machine learning

DOCDEV.to AI·4/26/2026

The Developer's Guide to Finetuning LLMs

Der Artikel „The Developer's Guide to Finetuning LLMs“ bietet Entwicklern und Handelsführern einen praktischen Leitfaden dazu, wann, warum und wie LLMs feinabgestimmt werden sollten. Er behandelt Entscheidungsrahmen, Kosten, Datenvorbereitung und Bewertungsstrategien und vergleicht Fine-Tuning mit Prompt Engineering und RAG für markenspezifische Aufgaben.

Finetuning prompt engineering development RAG

RESEARCHarXiv CS.CL·5/6/2026

Sparse Memory Finetuning as a Low-Forgetting Alternative to LoRA and Full Finetuning

Sparse Memory Finetuning (SMF) begegnet dem katastrophalen Vergessen in vortrainierten Sprachmodellen, indem nur eine kleine Untermenge von Speicherzeilen aktualisiert wird. Experimente zeigen, dass SMF die Leistung bei einer medizinischen Prüfungsaufgabe verbessert und gleichzeitig das Vergessen im Vergleich zu LoRA und vollständigem Finetuning erheblich reduziert.

Finetuning language models Sparse Memory Finetuning Catastrophic Forgetting

DOCHugging Face Blog·4/16/2026

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

Dieser Inhalt bespricht das Training und die Feinabstimmung multimodaler Embedding- und Reranker-Modelle. Dabei wird die Sentence Transformers-Bibliothek genutzt, um deren Leistung zu optimieren.

Finetuning embedding models multimodal AI model training