据介绍,M1的关键技术优势在于支持最高100万Token上下文输入窗口,达到目前业内最长水准,与Google Gemini 2.5 Pro相当,是DeepSeek R1的8倍;并支持最长8万Token的推理输出,远超多数同类模型。这一能力得益于其自主研发的闪电注意力机制主导的混合架构,使得在处理长上下文与深度推理时保持极高的计算效率。
在强化学习训练上,MiniMax采用自主提出的CISPO算法,相比传统RLHF方法显著提升了收敛速度。官方称,在AIME实验中,CISPO训练效率比字节跳动近期提出的DAPO快一倍,优于DeepSeek早期使用的GRPO算法。整个强化训练阶段仅使用512块H800 GPU训练三周,租赁成本控制在53.74万美元,远低于业内普遍成本。