← heapsort-ai

Finetuning

8 items

NEWS↑ trendingReddit r/LocalLLaMA·il y a 19j

LatitudeGames/Equinox-31B · Hugging Face

LatitudeGames a lancé Equinox-31B, un nouveau modèle d'IA affiné à partir de Gemma 31B, conçu pour offrir une expérience équilibrée entre aventures sombres et récits de vie quotidienne. Le modèle est polyvalent et est disponible sur la plateforme AIDungeon, nécessitant un abonnement.

LatitudeGames/Equinox-31B · Hugging Face
47
RESEARCHarXiv CS.CL·il y a 1j

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

L'hypothèse du Piggyback explique comment les tokens de modèle de chat peuvent induire un désalignement émergent dans les LLMs, généralisant les comportements affinés à des requêtes hors domaine. La technique de finetuning régularisé par token (TReFT) est proposée pour atténuer ce problème, préservant l'apprentissage intra-domaine et réduisant le désalignement.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Local AI is the best

L'utilisateur exprime une grande satisfaction avec l'IA locale, soulignant la liberté de personnalisation, l'absence de censure et la garantie de confidentialité pour les discussions personnelles. Il est éternellement reconnaissant aux développeurs de modèles open-source et d'outils comme llama.cpp pour ces avantages.

Local AI is the best
39
RESEARCHarXiv CS.CL·05/05/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Cet article propose une méthode basée sur la perplexité pour révéler les objectifs de réglage fin des grands modèles linguistiques, notamment ceux présentant des comportements d'"organismes modèles". Cette approche exploite la tendance des modèles à sur-généraliser, en générant et classant des complétions pour identifier les objectifs de réglage fin sans hypothèses préalables.

27
RESEARCHarXiv CS.LG·il y a 7j

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

Cet article présente FoLoRA, un cadre d'optimisation qui vise à prévenir la dégradation des capacités non ciblées lors du réglage fin des modèles de fondation. Il utilise un quotient de Rayleigh généralisé pour équilibrer l'utilité de la tâche et la pénalité d'oubli, dirigeant les mises à jour pour préserver les connaissances pré-entraînement.

27
DOCDEV.to AI·26/04/2026

The Developer's Guide to Finetuning LLMs

L'article "The Developer's Guide to Finetuning LLMs" est un guide pratique pour les développeurs et les leaders du commerce de détail, détaillant quand, pourquoi et comment affiner les LLM. Il aborde les cadres de décision, les coûts, la préparation des données et les stratégies d'évaluation, comparant l'affinement à l'ingénierie des prompts et au RAG pour des tâches spécifiques à la marque.

27
RESEARCHarXiv CS.CL·06/05/2026

Sparse Memory Finetuning as a Low-Forgetting Alternative to LoRA and Full Finetuning

Le Sparse Memory Finetuning (SMF) résout le problème de l'oubli catastrophique dans les modèles de langage pré-entraînés en mettant à jour uniquement un petit sous-ensemble de lignes de mémoire. Les expériences montrent que le SMF améliore les performances sur une tâche d'examen médical tout en atténuant considérablement l'oubli par rapport à LoRA et au réglage fin complet.

27