Finetuning

8 items

NEWS↑ trendingReddit r/LocalLLaMA·il y a 19j

LatitudeGames/Equinox-31B · Hugging Face

LatitudeGames a lancé Equinox-31B, un nouveau modèle d'IA affiné à partir de Gemma 31B, conçu pour offrir une expérience équilibrée entre aventures sombres et récits de vie quotidienne. Le modèle est polyvalent et est disponible sur la plateforme AIDungeon, nécessitant un abonnement.

Finetuning AI gaming Gemma AI Model

LatitudeGames/Equinox-31B · Hugging Face

RESEARCHarXiv CS.CL·il y a 1j

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

L'hypothèse du Piggyback explique comment les tokens de modèle de chat peuvent induire un désalignement émergent dans les LLMs, généralisant les comportements affinés à des requêtes hors domaine. La technique de finetuning régularisé par token (TReFT) est proposée pour atténuer ce problème, préservant l'apprentissage intra-domaine et réduisant le désalignement.

Finetuning Emergent Misalignment LLMs Generalization

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Local AI is the best

L'utilisateur exprime une grande satisfaction avec l'IA locale, soulignant la liberté de personnalisation, l'absence de censure et la garantie de confidentialité pour les discussions personnelles. Il est éternellement reconnaissant aux développeurs de modèles open-source et d'outils comme llama.cpp pour ces avantages.

Finetuning Open Source privacy censorship

RESEARCHarXiv CS.CL·05/05/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Cet article propose une méthode basée sur la perplexité pour révéler les objectifs de réglage fin des grands modèles linguistiques, notamment ceux présentant des comportements d'"organismes modèles". Cette approche exploite la tendance des modèles à sur-généraliser, en générant et classant des complétions pour identifier les objectifs de réglage fin sans hypothèses préalables.

Finetuning Perplexity model safety Research Methods

RESEARCHarXiv CS.LG·il y a 7j

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

Cet article présente FoLoRA, un cadre d'optimisation qui vise à prévenir la dégradation des capacités non ciblées lors du réglage fin des modèles de fondation. Il utilise un quotient de Rayleigh généralisé pour équilibrer l'utilité de la tâche et la pénalité d'oubli, dirigeant les mises à jour pour préserver les connaissances pré-entraînement.

Finetuning neural networks Optimization machine learning

DOCDEV.to AI·26/04/2026

The Developer's Guide to Finetuning LLMs

L'article "The Developer's Guide to Finetuning LLMs" est un guide pratique pour les développeurs et les leaders du commerce de détail, détaillant quand, pourquoi et comment affiner les LLM. Il aborde les cadres de décision, les coûts, la préparation des données et les stratégies d'évaluation, comparant l'affinement à l'ingénierie des prompts et au RAG pour des tâches spécifiques à la marque.

Finetuning prompt-engineering development RAG

RESEARCHarXiv CS.CL·06/05/2026

Sparse Memory Finetuning as a Low-Forgetting Alternative to LoRA and Full Finetuning

Le Sparse Memory Finetuning (SMF) résout le problème de l'oubli catastrophique dans les modèles de langage pré-entraînés en mettant à jour uniquement un petit sous-ensemble de lignes de mémoire. Les expériences montrent que le SMF améliore les performances sur une tâche d'examen médical tout en atténuant considérablement l'oubli par rapport à LoRA et au réglage fin complet.

Finetuning language models Sparse Memory Finetuning Catastrophic Forgetting

DOCHugging Face Blog·16/04/2026

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

Ce contenu traite de l'entraînement et du réglage fin des modèles d'embedding et de reranker multimodaux, en utilisant la bibliothèque Sentence Transformers pour optimiser leurs performances.

Finetuning embedding models multimodal AI model training