← heapsort-ai

Finetuning

8 items

NEWS↑ trendingReddit r/LocalLLaMA·vor 19T

LatitudeGames/Equinox-31B · Hugging Face

LatitudeGames hat Equinox-31B veröffentlicht, ein neues KI-Modell, das auf Gemma 31B feinabgestimmt wurde, um eine ausgewogene Erfahrung zwischen dunklen Abenteuern und alltäglichen Geschichten zu bieten. Das Modell ist vielseitig einsetzbar und auf der AIDungeon-Plattform mit Abonnement verfügbar.

LatitudeGames/Equinox-31B · Hugging Face
47
RESEARCHarXiv CS.CL·vor 1T

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

Die Piggyback-Hypothese erklärt, wie Chat-Template-Token in LLMs zu emergentem Fehlverhalten führen können, indem sie feinabgestimmtes Verhalten auf Out-of-Domain-Anfragen übertragen. Die Token-Regularized Finetuning (TReFT)-Methode wird vorgeschlagen, um dieses Problem zu mindern, wobei das In-Domain-Lernen erhalten bleibt und das Fehlverhalten reduziert wird.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Local AI is the best

Der Nutzer äußert große Zufriedenheit mit lokaler KI, da sie die Freiheit bietet, Modelle ohne Zensur oder Datenerfassung zu optimieren und so die Privatsphäre bei persönlichen Diskussionen gewährleistet. Für diese Vorteile sind sie den Entwicklern von Open-Weight-Modellen und Tools wie llama.cpp ewig dankbar.

Local AI is the best
39
RESEARCHarXiv CS.CL·5/5/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Dieses Papier stellt eine perplexitätsbasierte Methode vor, um Feinabstimmungsziele von großen Sprachmodellen, insbesondere von "Modellorganismen", aufzudecken. Diese Methode nutzt die Tendenz der Modelle zur Übergeneralisierung, indem sie Vervollständigungen generiert und bewertet, um die Feinabstimmungsziele ohne vorherige Annahmen zu identifizieren.

27
RESEARCHarXiv CS.LG·vor 7T

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

Dieses Papier stellt FoLoRA vor, ein Optimierungsframework, das die Verschlechterung nicht-zielgerichteter Fähigkeiten beim Feintuning von Basismodellen adressiert. Es verwendet einen verallgemeinerten Rayleigh-Quotienten, um den Nutzen der Aufgabe und die Vergessensstrafe auszubalancieren und so Updates zur Erhaltung des Vortrainingswissens zu steuern.

27
DOCDEV.to AI·4/26/2026

The Developer's Guide to Finetuning LLMs

Der Artikel „The Developer's Guide to Finetuning LLMs“ bietet Entwicklern und Handelsführern einen praktischen Leitfaden dazu, wann, warum und wie LLMs feinabgestimmt werden sollten. Er behandelt Entscheidungsrahmen, Kosten, Datenvorbereitung und Bewertungsstrategien und vergleicht Fine-Tuning mit Prompt Engineering und RAG für markenspezifische Aufgaben.

27
RESEARCHarXiv CS.CL·5/6/2026

Sparse Memory Finetuning as a Low-Forgetting Alternative to LoRA and Full Finetuning

Sparse Memory Finetuning (SMF) begegnet dem katastrophalen Vergessen in vortrainierten Sprachmodellen, indem nur eine kleine Untermenge von Speicherzeilen aktualisiert wird. Experimente zeigen, dass SMF die Leistung bei einer medizinischen Prüfungsaufgabe verbessert und gleichzeitig das Vergessen im Vergleich zu LoRA und vollständigem Finetuning erheblich reduziert.

27