(来源:上观新闻)
科学智能(AI for Science)领域又迎来里程碑式的“上海时刻”。2月4日晚间,上海人工智能实验室宣布,开源全球首个基于“通专融合”架构的万亿参数科学多模态大模型——Intern(书生)-S1-Pro。这是全球开源社区中参数规模最大的科学模型,其性能表现稳居全球第一梯队,标志着科学智能正从“工具革命”的1.0时代,跨入由“革命性工具”驱动科学发现的2.0时代。
既见“沙粒”,亦见“沙丘”
在人工智能(AI)领域,模型的参数规模往往决定了其“脑容量”。此次发布的全新书生科学模型,总参数量达到惊人的1万亿(1T),刷新了行业纪录。然而可贵的是,如此巨大的参数规模,并没有让模型变得过分“笨重”。
据介绍,书生万亿科学大模型采用了创新的混合专家架构(MoE)。形象地说,其内部相当于有512位各领域“顶尖专家”坐镇,每当面对具体的科学问题,系统会精准调用最合适的8位“专家”,一起参与分析决策。这种“按需点将”机制,使这个万亿模型只需要激活大约2%的参数(220亿),就可以从容应对复杂数理逻辑推理。
更精妙的是,书生万亿科学大模型,还通过底层创新,使得模型实现了“物理直觉”的跨越。据介绍,相较于处理语言,AI模型在解决科学问题时会遭遇很多新的挑战。尤其是语言的“字符间距”、或者说“数据密度”相对稳定,但科学领域却绝非如此——天文学家们往往要从洪荒中努力捕捉极其渺茫的信号,而生命科学却往往能在一个实验里采集到百万级的数据。为此,上海人工智能实验室引入“傅里叶位置编码(FoPE)”并重构“时序编码器”,像是为大模型赋予了“双重听觉”——既可以在微观上感知单个音符,又可以在宏观上欣赏整个乐章;亦或者说,这种机制让模型也拥有了“双重视觉”,既可以直击“沙粒之棱角”,也能眺望“沙丘之绵延”。
根据上海人工智能实验室主任、首席科学家周伯文的构想:“通专结合”是实现通用人工智能(AGI)的可行方案。而此次开源的书生万亿科学大模型,实际上就通过一系列底层创新,为这一构想的落地提供了现实的路径。
书生万亿科学大模型界面。
能力横跨五大学科
基础层的创新,已经支撑书生万亿大模型在实战中初步显现出过人实力。可以说,它不仅能“解题”,更有潜力“解决问题”,提升科研生产力,并为前沿科学探索提供坚实支撑。
在国际数学奥林匹克(IMO-Answer-Bench)和国际物理奥林匹克(IPhO2025)两大权威基准测试中,书生万亿科学大模型让人看到了竞赛级别的解题能力。在科学智能的其他若干关键垂直领域,它同样表现出色;不仅是单学科成绩优异,更是在SciReasoner等高难度的综合学科评测基准中,取得了与顶尖的闭源商业大模型相当、甚至更优的成绩,稳居第一梯队。
总体上,书生万亿科学大模型已经成功构建了一个横跨化学、材料、生命、地球、物理等五大核心学科的全谱系能力矩阵,涵盖100多个专业子任务,可以在许多领域成为科学研究重要的贡献者。比如,它能精准解析复杂的分子结构图和各类实验图表;能够通过逻辑推理,开展理化性质预测,捕捉数据背后的因果规律等高阶科学活动。
未来,随着理解与推理能力的增强,该模型的“能力边界”还将进一步向真实的科研场景延伸。据上海AI实验室介绍,其应用范围将从微观的化学逆合成、蛋白质序列生成,拓展到宏观尺度的遥感图像分析等复杂任务。
书生万亿科学大模型在各评测基准中表现出色。
深度融入国产生态
大模型的应用成效,受制于算力、算法、数据等多维度因素。书生万亿大模型不仅有算法层突破,更在算力层面努力实现国产自主技术的全链路集成,以筑牢“算力-算法”的一体化基座。
据上海人工智能实验室介绍,在基础研究层面,他们借助“路由稠密估计”“分组路由”等策略,能像智能交通系统一样对海量的计算芯片负载进行均衡,再加上算法与系统的协同创新,从而攻克了超大规模模型训练在“学习效率”和“资源调度”上的核心瓶颈。
值得一提的是,在模型架构设计之初,上海人工智能实验室便与昇腾计算生态确立了联合研发路线,实现了从最底层的算子优化到上层的训练框架的深度适配。而在大规模训练中,研发团队攻克了精度对齐、硬件性能极致释放等一系列核心技术难题,结合先进的内存管理与并行策略,确保了万亿参数模型训练的高效与稳定。目前,研发团队还与另一家国产芯片代表企业沐曦开展了联合研发,为进一步构筑开放共享、面向未来的科学智能基础设施奠定了坚实基础。
据介绍,目前,包括大语言模型、多模态模型、强推理模型在内的书生系列大模型及全链路开发工具在内的开源体系,已吸引全球数十万开发者参与。下一步,上海人工智能实验室将持续推动全链条开源与免费商用,进一步降低全球科研门槛,与全球学术界和产业界一道,打造一个更开放、更高效且面向未来的科学人工智能生态。
原标题:《全球最大!上海发布万亿参数科学大模型,国产算力筑底,数物化生“通吃”》
栏目主编:任荃
来源:作者:文汇报 张懿