DeepSeek新年炸场!梁文锋署名论文发布
创始人
2026-01-01 21:53:35

给AI“水管”加智能阀。

1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代基础架构的演进指明新方向。

新论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》),DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,而解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)、曹焕琪(Huanqi Cao)则是核心贡献者。

近年来,以超连接(HC)为代表的研究拓展了过去十年确立的通用残差连接范式(深度神经网络的经典连接范式),靠拓宽神经网络的“信息传输通道”、增加通道间的连接,让模型性能变好。但这种多样化也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。

因此,DeepSeek这篇论文针对超连接架构这些问题,提出兼顾性能与效率的改进框架,即mHC 架构,这类似于给超连接的“信息通道”加了一套“交通规则”,在保留性能优势的同时,又恢复了信息原样传递的特性,让模型训练更稳定、更容易做大,从而推动大模型底层架构的工业化落地。

这一论文整体较为技术,但通俗来讲,如果将AI模型想象成一个很长的“计算链条”,传统计算链条的问题在于,传递信息时是一条窄窄的管道,信息量大了就会“堵车”。后来的方法是将管道加宽(超连接),信息流更多,但水流太猛有时候会把水管冲坏。DeepSeek提出的mHC相当于给水管加了“智能调节阀”,能确保水流的稳定,运行的时候更省资源。

在论文中,DeepSeek表示,mHC为未来研究开辟了多个前景广阔的路径。研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC或将有助于突破当前限制,并可能为下一代基础架构的演进指明新方向。

从行业意义上来看,mHC或许能让企业在训练更大规模的基础模型时,减少硬件投入、缩短训练周期。比如算力有限的中小AI企业,也能尝试开发更复杂的大模型,降低了大模型研发的门槛。此外,训练稳定性和可扩展性的提升,能让大模型在更复杂的场景落地,比如需要超大规模参数的多模态模型、工业级的智能决策系统。

有行业人士评价认为,DeepSeek这一研究是底层创新,这次创新的架构看向的是Transformer最基础的问题,结合此前的积累,他预测DeepSeek 有望在V4版本中做出重大的更新。

自2025年初引发广泛关注以来,这一年DeepSeek虽未正式推出R2或V4等重大版本,但在模型迭代与开源上持续发力:仅12月就同步推出了DeepSeek-V3.2与V3.2-Special,11月底也开源了数学推理模型DeepSeek-Math-V2,成为目前首个达到国际奥数金牌水平并开放使用的数学模型。

相关内容

热门资讯

如何理解统筹建立常态化防止返贫... 《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》提出:“统筹建立常态化防止返贫致贫机制”...
最新或2023(历届)西游记人... 我的老爸个儿不高,挺着个“啤酒肚”,皮肤不黑不白。最近,我看了四大名着之一《西游记》我倒觉得这里面四...
最新或2023(历届)小学三年...   第一篇  每次犯错时,妈妈就大吼大叫的骂我,有时还打我,这让我觉得妈妈不像爸爸那样慈祥,觉得妈妈...
最新或2023(历届)小学三年...  第一篇  我是一棵小草,一棵无人知晓的小草,静静的长在一片草坪上……  我的生活平淡而无聊,很少有...
最新或2023(历届)三年级借...   第一篇  草,虽然平凡、渺小,但却有坚韧不拔的生命力;虽然不美丽,但却具有极其旺盛的生命力;这一...