← heapsort-ai

multi-task reasoning

2 items

ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

L'auteur passe du réglage fin de transformateurs denses au Nemotron 3 Nano de NVIDIA (une architecture hybride Mamba-Attention-MoE) pour le raisonnement multi-tâches. Il cherche des conseils sur la manière dont l'architecture hybride impacte la recette standard de réglage fin LoRA, son expérience antérieure étant limitée aux modèles denses.

42