ARTICLE↑ trending50
Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]
Reddit r/MachineLearning·26 de abril de 2026
O autor está migrando do ajuste fino de transformadores densos para o Nemotron 3 Nano da NVIDIA (uma arquitetura híbrida Mamba-Attention-MoE) para raciocínio multi-tarefa. Ele busca orientação sobre como a arquitetura híbrida afeta a receita padrão de ajuste fino LoRA, pois sua experiência anterior é limitada a modelos densos.
LLMsmulti-task reasoningAI architecturesFine-Tuning
Ler original ↗