ARTICLE27
Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets
Together AI Blog·2 de junio de 2026
Together logró una inferencia eficiente para MiniMax-M3, desbloqueando un contexto de 1M de tokens y multimodalidad. Esto se consiguió mediante atención dispersa KV-block-major, decodificación paged MSA, puntuación de índice optimizada y una puerta de enlace multimodal basada en Rust.
Leer original ↗