科学家提出“AI热力学定律”,为模型训练动态提供全新洞见
创始人
2025-05-17 21:51:36
0

近日,北京大学本科校友、美国麻省理工学院刘子鸣博士和所在团队提出了神经热力学定律(NTL,neural thermodynamic laws),这是一个会在大模型训练中自然涌现的热力学概念和定律,也是一个能为大模型训练动态提供全新洞见的框架。

对于本次成果刘子鸣在 X 上写道:“叠加态和神经标度律是语言模型中的两大神奇现象。本次新研究表明,它们其实是同一枚硬币的两面!在实践中,人们可以通过‘负’权重衰减来控制叠加态,从而控制扩展。”他还表示:“AI 终究是自然的(naturAl),而非人工的(Artificial)。”

图 | 刘子鸣(来源:https://kindxiaoming.github.io/)

为大模型架起通往物理学的桥梁

总的来说,本次成果的主要贡献如下:

首先,研究团队进行了快慢动力学分解的数学表述。在 river–valley loss landscape 中,他们将训练过程解耦为两个动力学过程:第一个是快速动态过程,即沿 valley 方向呈现固定学习率 η 下的平衡态或衰减学习率下的退火态;第二个是慢速动态过程,即沿 river 方向的漂移运动。

其次,研究团队打造了一个可被精确求解的 river–valley loss landscape 简化模型,该模型能够同时捕捉快速动态和流动动态,能为训练行为和最优学习率调度提供解析解。

再次,研究团队证明了本次成果与大模型的实证关联性。具体来说他们证明来自该简易模型的洞见能够很好地推广到真实大模型的训练之中,并能为学习率调度提供直观且有效的启发。

同时,神经网络训练与热力学之间的二重性,为深入理解深度学习提供了科学基础,这为大模型架起了一座通往物理学的桥梁。

结合该团队目前所知道的他们认为学习率主要有三个作用:控制温度、控制熵力、控制时间尺度。本次也研究证明大模型训练的诸多方面,都能通过热力学概念进行解析性理解。未来,该团队将基于本次获得的科学见解设计算法,以便提高大模型训练的效率。

图 | 训练动态与热力学的关联(来源:arXiv)

大型神经网络与热力学系统的惊人相似

就研究过程来说,如前所述该团队在本次研究中提出了一款 river–valley loss landscape 简化模型。与此同时,他们还分析了在随机梯度下降(SGD,Stochastic Gradient Descent)和符号梯度下降(SignGD,Sign Gradient Descent)下的训练动态。

需要说明的是,river–valley loss landscape 是一个用于描述神经网络优化过程中损失函数拓扑结构的比喻性概念。

其中:

大型神经网络与热力学系统有着惊人的相似之处,两者都涉及大量的自由度,并表现出随机动力学特性。因此,此前人们已经探索了神经网络与热力学之间的联系。然而,这些研究主要集中在具有相对简单、易于理解 loss landscape 的经典机器学习模型上。

前不久,有一支研究团队揭示了大模型的复杂 loss landscape 特征,这种被称为 river-valley 的结构由两类方向构成:平坦缓慢的 river 方向与陡峭快速的 valley 方向。直观来讲,快速动态会在 valley 内快速达到平衡态,而慢速动态则沿会 river 方向逐渐演化,并会受到快速动态的精细调节。

这种快慢分离的机制使得人们能够独立处理 valley 方向与 river 方向的动力学,从而得到可解析求解的结果。具体来说:快速动态呈现出热平衡与退火特性,而慢速动态则表现为漂移过程。

在定性层面以及在某些情况下的定量层面,这些解析解与经典热力学概念和定律存在相似性。

大模型的 loss landscape 呈现出典型的 river-valley 结构特征。而本次研究的目标是通过神经热力学定律的理论框架,将上述直观认识形式化。因此,本次成果与大模型训练有着直接相关性。

研究人员在论文中写道,这种优化理论与热力学之间的二元性,为理解和评估现代优化器提供了全新的理论视角。(需要说明的是,现代优化器是一种专门为神经网络训练设计的高级梯度下降算法,旨在通过最小化损失函数来提升模型的性能,是训练复杂 AI 模型的关键技术。)

于理论层面,在 river–valley loss landscape 的假设之下,该团队证明关键热力学量以及经典热力学原理,会从大模型的训练动态中自然涌现。

于实践层面,这一研究为设计学习率调度策略提供了直观的指导原则。(需要说明的是,学习率调度策略是深度学习训练的核心调参技巧之一,其本质是通过动态调整更新步长,在快速搜索解空间与精细调整最优解之间取得平衡。)

大模型训练动态与热力学之间的二元性,不仅在概念和理论上具有深刻意义,更为学习率调度等实践设计提供了实质性的指导。

在大模型预训练中,一种常用的学习率调度策略是预热-稳定-衰减(WSD,warmup-stable-decay)。根据以往文献可知:稳定阶段对应于沿 river 方向的运动,并伴随着 valley 方向的波动;而衰减阶段则会抑制 valley 方向的变化。

正是在此启发之下,该团队引入了基于 river–valley loss landscape 的简化模型。这一模型不仅具有解析可解性,还能自然地诠释为热力学系统,并在实际大模型训练动态中展现出高度的实证一致性。

基于快速动态和慢速动态之间的时间尺度分离特性,研究团队将总损失函数 ℓ 分解为两个部分:快部分 ℓf 和慢部分 ℓs,从而为构建河谷景观的简化模型带来了启发。

在固定学习率的情况之下,快速动态会收敛到一个稳态分布,而这和热平衡状态是类似的。当学习率逐渐衰减时,分布状态会相应演化,这一过程类似于退火现象。此外,快速动态会对慢速动态施加一种有效的熵力作用,这与物理学中的熵力现象具有相似性。

值得注意的是,学习率 η 在所有这些现象中都起着核心作用。通过阐明学习率复杂且有时相互矛盾的作用机制,研究团队提出了一套直观高效的学习率调度设计准则。

相比此前基于经验或基于现象开展大模型优化研究,尤其是优化学习率调度设计的研究成果来说,本次成果的表征更加侧重于机制性研究。

目前,相关论文以《大模型训练中的神经热力学定律》(Neural Thermodynamic Laws for Large Language Model Training)为题发在arXiv[1]。

图 | 相关论文(来源:arXiv)

另据悉,刘子鸣博士师从于麻省理工学院教授马克斯·泰格马克(Max Tegmark),主要研究 AI 与物理科学的交叉领域,他将自己的研究方向分为 Science of AI、Science for AI 和 AI for Science。目前,他正在寻找博士后职位。

参考资料:

https://arxiv.org/pdf/2505.10559

https://x.com/ZimingLiu11

https://kindxiaoming.github.io/

排版:刘雅坤

相关内容

热门资讯

王楚钦把自己当挑战者冲击者参赛... 【#王楚钦把自己当挑战者冲击者参赛# #王皓称备战多哈是近20年最困难一次#】《体坛零距离》中,国乒...
俄总统新闻秘书:普京和特朗普正...   当地时间5月17日,俄总统新闻秘书佩斯科夫表示,俄罗斯总统普京和美国总统特朗普正在准备电话会谈。...
这700米有车坐了!中大医院就... 5月17日,恰逢东南大学附属中大医院建院90周年之际,医院单循环B26路就医公交专线落地运营,实现从...
近5万人相聚成都草莓音乐节 转自:成都日报锦观近5万人相聚成都草莓音乐节 本报讯 (成都日报锦观新闻记者 王静宇) 走进营...
山水有情 风尘无事 别克GL... 一台好车,是一种生活。5月初夏,风光如画。全新GL8陆尚成为家庭周末度假的理想旅伴,带你畅游碧水青山...
进一步规范工伤保险协议机构管理 转自:成都日报锦观四川制定办法进一步规范工伤保险协议机构管理 本报讯 (成都日报锦观新闻记者 ...
昆明创新多项举措畅通群众看病就... 近年来,昆明市卫健系统聚焦群众看病就医的急难愁盼问题,创新实施多项惠民举措,全力畅通群众看病就医之路...
筑牢“四强”堡垒 让党旗在履职... 本报记者 乔 欣在基层立法联系点的座谈现场,党员与群众共商法规修订;在乡村振兴帮扶村的田间地头,监督...
蓉城少年 绿茵逐梦 转自:成都日报锦观蓉城少年 绿茵逐梦 总决赛后,现场举行了首届“苗地杯”成都市青少年足...
格桑花开处 无障亦有爱 省残联为残疾人职工进行普法宣传,提供法律咨询。省残联供图义卖残疾人制作的手工艺品,为残疾人增加收入。...
我省创新推行服务型执法 本报讯 (记者 董洁) 5月7日,青海省市场监管局立足职能转变,坚持以法治思维引领执法方向,以服务理...
大蒜还在地头 早被海外预订一空 转自:成都日报锦观大蒜还在地头 早被海外预订一空农产品加速出海,川味飘香全球110个国家和地区 ...
青海打好金融“组合拳” 支持消... 本报讯 (记者 郭靓) 5月13日,记者从中国人民银行青海省分行了解到,今年以来,中国人民银行青海省...
去年全市高技能人才总量突破10... 转自:成都日报锦观去年全市高技能人才总量突破100万 本报讯 (成都日报锦观新闻记者 陈秋妤)...
2025年度智能工厂和数字化车... 转自:成都日报锦观2025年度智能工厂和数字化车间开始申报 本报讯 (成都日报锦观新闻记者 李...
“九天”无人机即将首飞 转自:成都日报锦观“九天”无人机即将首飞 ■最大载荷6吨,最大航程7000公里 ■机腹内...
走进电影博物馆 迎接国际博物馆... 近日,江苏省如皋市城南街道组织青年参观华夏电影博物馆,了解电影历史和文化,迎接5·18国际博物馆日。...
赛场逐梦展风采 特产飘香火出圈 激烈的拼抢。产自海南州的三文鱼吸引了不少人光顾。本报记者 李兴发 摄本报记者 李兴发第一届“大美青海...
秘鲁中南部地区发生6.0级地震 转自:新华网  新华社利马5月17日电(记者郝云甫)秘鲁中南部阿亚库乔省17日发生6.0级地震,目前...
公示资费套餐、规范营销行为 今... 新华社南昌5月17日电 (记者 周圆 姚子云) 5月17日是世界电信日。工业和信息化部17日发布“2...