ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026
Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]
El autor está pasando del ajuste fino de transformadores densos al Nemotron 3 Nano de NVIDIA (una arquitectura híbrida Mamba-Attention-MoE) para el razonamiento multi-tarea. Busca orientación sobre cómo la arquitectura híbrida afecta la receta estándar de ajuste fino LoRA, ya que su experiencia previa se limita a modelos densos.
42