成本仅380万 MiniMax发布全球首个混合架构开源模型M1
创始人
2025-06-18 12:12:18
0

IT时报记者 毛宇

在人工智能竞赛进入“下半场”的今天,模型性能的比拼已不再是唯一焦点,高效、低成本、强推理能力正成为定义下一代AI核心竞争力的关键。6月17日凌晨,上海AI独角兽MiniMax正式发布其自主研发的MiniMax-M1系列模型。

M1被定义为“全球首个开源的大规模混合架构推理模型”,正成为Agent(智能体)时代的首选开源基座模型。其技术报告显示,M1模型处理百万级Token(文本被分割后的最小处理单元)长文本能力突出,成为目前上下文最长的推理模型;其RL(强化训练)成本下降一个量级,成本仅53万美金(约合人民币380万元);在工具使用场景(TAU-bench)中MiniMax-M1-40k同样领跑所有开源权重模型,超过Gemini-2.5 Pro。

(开源技术报告截图)

倒逼行业“真开源”

“性能比肩DeepSeek-R1”“又一次卷到硅谷了”,M1发布后,技术社区和行业观察者迅速给出高度评价。

MiniMax不仅开源了模型权重,还以极具竞争力的价格提供API服务。其定价策略清晰地体现了成本优势:0~32k Token输入0.8元/百万Token,输出8元/百万Token;32k~128k Token输入1.2元/百万Token,输出16元/百万Token;128k~1M Token输入2.4元/百万Token,输出24元/百万Token。

此外,MiniMax宣布,在其自有的App和Web端,M1模型将保持不限量免费使用,这无疑将极大地推动其技术的普及和应用。

性能上,MiniMax在业内公认的17个主流评测集上对M1进行全面“大考”,结果显示,M1在软件工程、长文本理解和工具使用等面向生产力的复杂场景中,优势尤为突出。代码能力(SWE-bench)M1-40k和M1-80k版本分别取得了55.6%和56.0%的好成绩,超越其他所有开源模型,稳居第一梯队。

长文本(MRCR)依托百万级上下文窗口,M1系列甚至击败了OpenAI的GPT-4o和Anthropic的Claude 3 Opus,在全球范围内仅以微弱差距落后于谷歌的Gemini2.5 Pro,位列全球第二。

工具调用(TAU-bench)在模拟真实世界工具调用的复杂场景中,M1-40k模型再次领跑所有开源模型,甚至超越了闭源的Gemini-2.5 Pro,展现了其作为AI智能体基座模型的巨大潜力。

值得注意的是,在绝大多数基准测试中,拥有更长推理能力的M1-80k版本始终优于M1-40k,充分证明其架构在扩展计算资源时的有效性和可塑性。

线性注意力混合构架与CISPO算法

MiniMax-M1的性能根植于其独特的架构设计和算法创新。

其中,两大核心技术——线性注意力机制(Lightning Attention)混合构架和更快的强化学习算法CISPO(Clipped IS-weight Policy Optimization),构成了其高效能、低成本的基石。

长文本处理能力是衡量现代大模型先进性的“试金石”。M1模型原生支持高达100万Token的上下文窗口,同时还支持业内最长8万Token推理输出,为处理复杂文档分析、长篇代码生成等任务提供了更多可能性。

实现这一突破的关键,在于MiniMax独创的Lightning Attention混合构架。传统Transformer模型在处理长序列时,注意力机制的计算量会随序列长度呈平方级增长,成为制约性能和成本的主要瓶颈。M1的混合架构,特别是注意力机制,能够显著优化长下文输入的计算效率。

报告提到,在进行8万Token的深度推理时,M1所需的算力仅为DeepSeek R1的约30%;生成10万token时,推理算力只需要DeepSeek R1的25%。效率的提升,直接转化为训练和推理阶段巨大的成本优势。

MiniMax此次提出的CISPO算法,另辟蹊径,通过裁剪重要性采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。实验数据显示,在AIME(AI-powered Moral Evaluator)等测试中,CISPO的收敛性能比字节跳动近期提出的DAPO算法快一倍,也显著优于DeepSeek早期使用的GRPO算法。

更快的收敛意味着更少的训练时间和资源消耗。

得益于CISPO的高效,M1模型的整个强化学习阶段仅使用了512块H800 GPU,耗时三周,成本仅为53.5万美元。MiniMax官方表示,这一成本“比最初的预期少了一个数量级”。

在AIME 2024测试集上,CISPO的性能同比优于GRPO和DAPO

分析人士认为,M1模型为开发者和企业提供了一个高性能、低门槛的新选择,也用事实证明了通过技术创新可以有效打破“算力—资本”的壁垒。当下,“卷成本、卷效率”的竞争模式,将倒逼更多模型厂商走向真正的技术驱动和价值创造,而非停留在参数和估值的虚假繁荣中。

M1的发布仅仅是MiniMax“开源周”的序幕,接下来的四个工作日,MiniMax计划每天发布一项新的技术或产品更新,。同时,MiniMax正积极与国家超算平台、vLLM等业界主流开源框架合作,确保开发者能够轻松、高效地部署和使用M1模型。

相关内容

热门资讯

适合同学间传达的结婚祝福语大全...  同学的婚期快到了,礼物挑好了,可总觉得有点单调,想送礼物的时候再送上祝福。你还在为婚礼说什么苦恼吗...
同学结婚祝福语怎么说 创意的结... 在婚礼上,为新人送上祝福的人肯定是很多,那么,同学结婚祝福语怎样说才有创意呢?本文就来想打架推荐一下...
简短的同学结婚祝福语多则推荐 ...  昔日的同学要结婚了,去参加婚礼的你,送完礼物神马的也不要忘了送上几句简短的结婚祝福语哦。什么样的祝...
幽默搞笑的同学结婚祝福语大全 ... 新人举行婚礼,作为亲朋好友或是同学同事前来祝贺新人新婚之喜这是在所难免的。很多人在为同学结婚时说什么...