挑战DeepSeek-R1,上海企业开源发布MiniMax-M1大模型
创始人
2025-06-17 20:36:18
0

今天,上海人工智能独角兽企业稀宇在开源社区发布了MiniMax-M1系列模型。它们是采用大规模混合架构的推理模型,在处理百万级Token(词元)长文本上实现了突破,支持高达100万Token的上下文窗口,与谷歌最新发布的Gemini 2.5 Pro持平,是DeepSeek-R1的近8倍。在17个国际主流评测集上,M1大模型显示出优越性能。在代码能力方面,M1-40k和M1-80k版本分别取得了55.6%和56.0%的优秀成绩,超越其他开源模型,跻身全球大模型第一梯队。在长文本理解方面,M1系列凭借百万级上下文窗口,不仅超越了所有开源模型,还击败了GPT-4o和Claude 3 Opus,仅以微弱差距落后于Gemini 2.5 Pro,位列全球第二。在工具调用方面,M1-40k在模拟真实世界工具调用的复杂场景中完成多项任务,展现了其作为智能体基座模型的潜力。

在主流评测集上,M1大模型显示出优越性能。

研发团队介绍,MiniMax-M1的优越性能根植于独特的架构设计和算法创新。它采用线性注意力机制混合构架。其中,线性注意力机制通过算法优化,把传统模型架构中输入长度和计算复杂度之间的平方增长关系变成线性关系,跨出了“实现无限长的输入和输出”的关键一步。混合构架的设计思路是“术业有专攻”,即对任务进行分类,然后分给多个“专家”模块来解决。与一个“通才”大模型相比,一群“专家”模块可以更高效、专业地完成复杂任务。强化学习算法CISPO也是M1大模型实现突破的核心技术,它通过裁剪重要性采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。测试数据显示,CISPO的收敛性能比字节跳动近期提出的DAPO算法快一倍,也显著优于DeepSeek早期使用的GRPO算法。更快的收敛意味着更少的训练时间和资源消耗。M1大模型的整个强化学习阶段仅使用512块英伟达H800 GPU,耗时三周,成本仅为53.5万美元。这一成本比研发团队的预估少了一个数量级,展示出“线性注意力机制混合构架+CISPO算法”这条技术路线在成本控制上的巨大潜力,证明了通过技术创新可以打破“算力—资本”的壁垒。

在AIME 2024测试集上,CISPO的性能同比优于GRPO和DAPO。

凭借研发成本的大幅降低,稀宇推出了价格很低的API(应用程序编程接口)服务。0—32k Token、32k—128k Token这两个档位的定价均低于DeepSeek-R1,128k—1M Token超长文本档位则是DeepSeek目前尚未覆盖的领域。这家上海企业还宣布,在其自有的App和Web端,用户可无限量免费使用M1大模型。

目前,完整的M1模型权重和技术报告已在“抱抱脸”和GitHub上发布。公司还在与国家超算平台、vLLM等业界主流开源框架合作,让开发者高效地部署和使用M1模型。据悉,M1的发布开启了MiniMax“开源周”。在接下来的4个工作日里,公司计划每天发布一项新技术或产品更新,有望引起业界持续关注。

原标题:挑战DeepSeek-R1,上海企业开源发布MiniMax-M1大模型

相关内容

热门资讯

古城“焕”新居民欢 转自:衢州日报  记者 范家熔 报道组 郑晨 通讯员 聂文州  昨天,记者来到衢州市区三桥街的一幢居...
打击非法集资绝不手软 转自:衢州日报  ■新闻速递:今年6月是全国“守住钱袋子·护好幸福家”防范非法金融活动宣传月。为揭示...
龙游交通部门 全力做好汛期道路... 转自:衢州日报  本报讯 (通讯员 吴诗昱 傅庆 王帅) 受梅雨带影响,6月10日下午到夜里,龙游县...
北京展区超3500册图书今亮相... 转自:千龙网6月18日至6月22日,第31届北京国际图书博览会将在国家会议中心拉开帷幕。作为历届图博...
欧洲债市:欧债下跌 德国国债表...   欧债下跌,跑输美国国债,本地的催化剂寥寥。德国国债表现优于其他欧洲政府债券,全球焦点集中在以色列...
06月18日 英镑兑美元跌破1... Hehson外汇消息2025年06月18日,截至01时49分,外汇市场上英镑兑美元汇率跌破1英镑兑换...
刘强东:到今天为止,我跟快递员...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 6月17日,京东集...
本周全市晴雨相间 农户应及时清... 转自:衢州日报  预计未来七天,我市晴雨相间,气温偏高。6月21日至22日有弱降水过程,6月21日起...
俄总统新闻秘书:俄乌下一轮直接... 转自:央视俄罗斯总统新闻秘书佩斯科夫17日表示,他不知道下一轮俄乌谈判何时举行,俄罗斯将在未来几天评...
印尼勒沃托比火山喷发 火山灰柱... 转自:千龙网总台记者获悉,据印尼勒沃托比火山观测站消息,当地时间6月17日,东努沙登加拉省勒沃托比火...
打通农村公路“生命线” 转自:衢州日报  受强降雨袭击,造成山体土石疏松,6月11日早上6点左右,开化县中村乡张西线11Km...
第三届链博会将于7月16日至2... 转自:千龙网央视网消息(新闻联播):国务院新闻办公室6月17日举行新闻发布会。中国贸促会有关负责人介...
海通国际-能科科技-60385... (转自:研报虎)本报告导读:  公司经营质量稳步提升,AI产品与服务实现突破性增长,持续引领工业软件...
第二届中国-中亚峰会成果清单 2025年6月16日至18日,第二届中国-中亚五国峰会在哈萨克斯坦阿斯塔纳市举办。峰会期间,中国同中...
美联储将于6月25日召开会议讨...   美联储表示,将于6月25日开会讨论对一项资本规则的修改。  补充杠杆率(SLR)规则一直限制银行...
美国纽约市审计长在访问移民法庭... 转自:财联社【美国纽约市审计长在访问移民法庭时被捕】财联社6月18日电,据央视新闻,当地时间6月17...
法国前总理菲永因“空饷”案被判... 转自:新华网  新华社巴黎6月17日电 据法国媒体报道,法国巴黎上诉法院17日就法国前总理菲永“空饷...
06月18日 澳元兑美元跌破0... Hehson外汇消息2025年06月18日,截至01时16分,外汇市场上澳元兑美元汇率跌破1澳元兑换...
步长制药控股子公司步长医学诊断... 来源:中访网财观中访网数据  山东步长制药股份有限公司(股票代码:603858)近日披露其控股子公司...
突发讣告!华语乐坛泰斗去世,曾... 6月17日上午,陈彼得家人发布讣告称,陈彼得先生,于2025年6月14日上午9时46分在成都安详辞世...