MiniMax-01

Scaling Foundation Models with Lightning Attention

MiniMax Team

MiniMax

Academic Conference Presentation

Foundation models limited by quadratic attention complexity
Context window sizes typically capped at 128K tokens
Key goal: Match SOTA performance while extending context to 1M+ tokens
Practical applications requiring long context: document analysis, extended reasoning

Mixture of Experts (MoE): 32 experts, top-2 routing
Hybrid attention mechanism:
- 7 TransNormer blocks with Lightning Attention
- 1 Transformer block with Softmax Attention
Additional components: DeepNorm, Group Query Attention, RoPE
Vision component: ViT-L/14 encoder with MLP projector

Figure 3: MiniMax-Text-01 architecture

Figure 5: Comparing Softmax and Linear Attention computation

Figure 9: Expert Parallel overlap

Figure 10: EP-ETP overlap efficiency

Figure 13: Power-law fit for training loss vs. critical batch size

Figure 17: Tag distribution in VLM instruction data

Figure 1: Benchmark performance comparison

Figure 14: 4M token NIAH results

Figure 15: MR-NIAH benchmark

Figure 2: Prefill latency comparison

Figure 8: Training speed comparison across sequence lengths

Successfully scaled linear attention in foundation models
Demonstrated feasibility of million-token context windows
Public release: github.com/MiniMax-AI
Future directions:
- Improved long-context evaluation metrics
- Fully eliminating softmax attention
- Enhanced programming capabilities

Key references available in the paper

Contact: model@minimaxi.com

Project: github.com/MiniMax-AI

Questions?