北大团队揭秘AI安全训练为何如此脆弱——大模型中隐藏的"弹簧效应"_常识

北大团队揭秘AI安全训练为何如此脆弱——大模型中隐藏的"弹簧效应"

创始人

2025-10-11 18:02:51

当你费尽心思教会一个AI助手遵守规则、拒绝有害内容时,可曾想过这些辛苦建立的"安全机制"可能只是表面功夫?

北京大学人工智能研究院的团队在研究中发现了一个令人不安的现象:即使经过精心设计的安全训练,大型语言模型依然像装了弹簧一样,轻轻一碰就会弹回原来不安全的状态。

这项研究对当下火热的AI安全领域提出了根本性质疑。研究团队通过理论推导和大量实验证明,语言模型天生就有一种"抵抗对齐"的特性——他们称之为"弹性"(Elasticity)。这种弹性导致模型在接受安全训练后,只需要少量的额外数据微调,就能轻易恢复到训练前那种可能产生有害内容的状态。更令人担忧的是,随着模型规模越大、预训练数据越多,这种弹性反而越强,安全训练越容易被推翻。

AI安全训练的困境:为什么精心调教的模型会"失忆"?

过去几年,大型语言模型在各个领域展现出了惊人的能力。从撰写文章到编写代码,从回答问题到进行复杂推理,这些AI系统的表现越来越接近甚至超越人类。然而,这些强大的能力也伴随着潜在的风险。由于训练数据来自互联网,不可避免地包含了偏见、有害内容和错误信息,未经处理的语言模型可能会输出冒犯性言论、生成虚假信息,甚至提供危险的操作指南。

为了解决这个问题,AI研究人员开发了一系列"对齐"(Alignment)技术,试图让模型的行为符合人类的价值观和意图。最常用的方法是监督微调(SFT),即用精心筛选的高质量、安全的对话数据来训练模型。另一种流行的方法是基于人类反馈的强化学习(RLHF),通过人类评分员对模型回复的评价来引导模型学习什么是好的、安全的回答。这些方法在ChatGPT、Claude等商业AI助手的开发中发挥了关键作用,使得这些系统能够拒绝有害请求,提供有帮助且无害的回复。

但是,一些令人不安的现象开始浮现。研究人员发现,即使是经过严格安全对齐的模型,也可能通过相对简单的方法被"破解"。有些攻击者发现,只需要用特殊构造的提示词,或者在模型经过安全训练后再进行少量的额外微调,就能让模型重新开始生成它本应拒绝的有害内容。更意外的是,即使使用完全无害的数据集(比如某个专业领域的问答数据)来微调一个经过安全对齐的模型,也可能无意中削弱模型的安全机制。

这些现象引发了一个根本性的问题:安全对齐是否真的改变了模型的内在机制,还是仅仅在表面上抑制了有害输出?如果是后者,那么我们目前的安全训练方法可能存在根本性缺陷。开源模型的普及使这个问题变得更加紧迫——任何人都可以下载这些经过对齐的模型权重,然后用自己的数据进行微调,可能在有意或无意中消除安全防护。

面对这些异常现象,研究社区提出了各种解释。有人认为这是因为安全训练使用的数据量太少,模型没有充分学习安全规则。有人推测这与模型参数空间的特定结构有关,安全相关的调整可能集中在某些容易被修改的参数区域。还有研究者发现,模型在训练过程中可能会"假装"接受训练目标,实际上保留了原有的偏好,这种现象被称为"对齐伪装"。

北京大学团队的这项研究从一个全新的角度切入这个问题:他们没有把语言模型的训练看作传统的机器学习任务,而是将其视为一个数据压缩过程。这个视角转换带来了深刻的洞察。数据压缩理论告诉我们,一个好的压缩器必须理解数据的内在规律。同样,语言模型通过预测下一个词来学习语言的规律,这个过程本质上等价于对文本进行无损压缩。已有研究证实,大型语言模型的预测能力与其压缩性能之间存在线性关系,甚至有研究提出"压缩能力代表智能水平"的观点。

基于这个压缩视角,研究团队构建了一个数学框架来分析模型的训练和对齐过程。他们将预训练和对齐看作是模型同时压缩多个不同数据集的过程,其中预训练数据集规模巨大(通常达到数万亿词条),而对齐数据集则要小得多(通常只有数万至数十万条样本)。通过建立"令牌树"(Token Tree)和"压缩协议"等数学工具,研究者能够精确计算模型在不同数据集上的压缩率,并分析当模型受到扰动(如额外微调)时,这些压缩率会如何变化。

这个理论分析的关键发现是:当模型受到扰动时,其在不同数据集上压缩率的变化量,与这些数据集的大小成反比关系。这意味着,同样的扰动对小数据集的影响,会比对大数据集的影响大得多——可能达到数个数量级的差异。考虑到预训练数据与对齐数据之间巨大的规模差距,这个不成比例的影响解释了为什么安全对齐如此脆弱:模型天生就"偏好"保留在大规模预训练数据上学到的分布,而倾向于"忘记"在小规模对齐数据上学到的行为模式。

研究团队将这种现象命名为"弹性"(Elasticity),类比物理学中的弹簧特性。就像被拉伸的弹簧会试图回到原来的形状一样,经过对齐训练的语言模型在受到额外微调时,也会倾向于回到预训练时的行为分布。而且对齐训练越"深"(即离预训练分布越远),这种回弹效应就越明显——这就是"反弹"(Rebound)现象。相反,未经对齐的预训练模型则表现出"抵抗"(Resistance),即抗拒偏离其原有分布的训练。

这个发现的深远意义在于,它揭示了当前对齐方法的一个根本局限性:我们试图用小规模数据来改变由大规模数据塑造的模型行为,这在数学上注定是不稳定的。任何后续的微调(即使是良性的)都可能轻易地将模型推回到预训练分布,消除安全对齐的效果。这不是某个特定算法的缺陷,而是训练范式本身固有的问题。

数据压缩与语言模型:一个出人意料的数学联系

要理解语言模型的弹性,我们首先需要理解语言模型训练与数据压缩之间的深刻联系。这个联系可能出乎很多人的意料:训练一个语言模型来预测下一个词,与设计一个程序来压缩文本文件,在数学上是等价的任务。

数据压缩的目标是用尽可能少的空间来存储信息,同时还能完美地恢复原始数据。比如一个文本文件原本需要1000个字节存储,通过压缩可能只需要300个字节,压缩率就是30%。经典的信息论告诉我们,最优压缩方案的压缩长度等于数据的熵——这是一个衡量数据"不确定性"或"信息量"的数学概念。一段完全随机的文本几乎无法压缩,而一段有规律的文本(比如重复的模式或可预测的句子结构)就能压缩得很厉害。

语言模型的训练目标看起来完全不同:给定一段文本的前面部分,预测下一个词应该是什么。模型通过大量文本学习语言的统计规律,从而能够给出合理的预测。训练过程就是不断调整模型参数,使得它对训练数据中实际出现的下一个词给出尽可能高的概率。这个训练目标用数学语言表述,就是最小化"负对数似然损失"。

关键的洞察是:最小化负对数似然损失,等价于最小化用算术编码进行数据压缩时的编码长度。算术编码是一种接近最优的压缩方法,它根据每个符号出现的概率来分配编码空间。如果模型能准确预测下一个词的概率分布,算术编码器就能非常高效地压缩文本。反过来,一个好的压缩器必然内含了对数据规律的准确建模,也就能做出好的预测。

这个等价性已经在理论上被严格证明,并在实验中得到验证。研究者发现,大型语言模型确实能作为出色的无损压缩器,其压缩性能与模型规模、训练数据量都呈现线性关系。更有趣的是,有研究提出"压缩能力线性代表智能水平"的假说,认为模型的压缩性能可以作为其智能的量化指标。

北京大学团队正是利用这个压缩视角来分析语言模型的训练过程。他们将预训练和对齐看作模型同时学习压缩多个不同数据集。预训练阶段,模型学习压缩来自互联网的海量文本;对齐阶段,模型学习压缩精心策划的对话数据。由于这些数据集的分布不同且规模差异巨大,模型需要在它们之间进行某种"资源分配"——用模型的有限参数空间来同时适应多个压缩任务。

为了精确分析这个过程,研究团队建立了一套数学工具。他们引入了"令牌树"(Token Tree)的概念来表示数据集的结构。令牌树类似于决策树,从根节点开始,每一层代表文本序列中的一个位置,分支代表可能出现的词。树的叶子节点对应完整的文本序列,节点的权重表示该序列出现的概率。这个结构能够完整地表示一个数据集的概率分布。

接下来,他们定义了模型的"压缩协议":由于模型参数有限,不可能完美地建模任意深度的令牌树,因此模型只能准确建模到某个深度d的树。对于这个剪枝后的树,模型使用最优的霍夫曼编码来进行压缩。霍夫曼编码是一种经典的压缩算法,能为高频符号分配短编码,为低频符号分配长编码,从而达到接近最优的压缩效果。

基于这个压缩协议,研究团队可以计算出模型在任意数据集上的"理想编码长度"——这对应于模型在该数据集上的训练损失。更重要的是,当模型同时在多个数据集上训练时(比如预训练加对齐),整体的令牌树是各个数据集令牌树的某种"混合"。每个数据集在混合树中节点的权重,与该数据集的规模成正比。这个观察是后续分析的关键。

为了比较模型在不同数据集上的表现,研究团队定义了"归一化压缩率"这个指标。普通的压缩率是压缩后大小除以原始大小,但由于不同数据集的令牌树结构不同(叶节点数量不同),直接比较压缩率会产生误导。归一化压缩率通过减去一个与树结构相关的常数项,消除了这种结构差异的影响,使得不同数据集的压缩率可以公平比较。归一化压缩率越小,说明模型在该数据集上的压缩性能越好,也就意味着模型对该数据集的分布建模得越准确。

有了这套数学工具,研究团队就能够精确分析当模型受到扰动(比如额外微调)时会发生什么。他们假设模型已经在预训练数据和对齐数据上训练完成,现在用一个新的扰动数据集进行额外的微调。这个扰动会如何影响模型在原有数据集上的压缩性能呢?通过推导,研究者发现了一个惊人的数学规律。

弹性的数学证明:模型行为的"胡克定律"

研究团队的核心理论贡献是严格证明了语言模型的"弹性定理"。这个定理揭示了一个深刻但简洁的数学关系:当对已训练模型施加扰动时,模型在不同数据集上归一化压缩率的变化率,与这些数据集的大小成反比。

让我们用一个具体的场景来理解这个定理。假设有一个语言模型,它先在包含3万亿词条的预训练数据上训练,然后在包含10万条对话的对齐数据上进一步训练。现在我们用另外一个包含1万条样本的数据集来对模型进行额外微调(这就是扰动)。弹性定理告诉我们,这个微调会导致两个效果:第一,模型在对齐数据上的压缩性能会变差(压缩率上升),意味着模型开始"忘记"对齐时学到的行为;第二,模型在预训练数据上的压缩性能会变好(压缩率下降),意味着模型在向预训练分布靠拢。

更关键的是这两个变化率之间的关系。如果预训练数据是对齐数据的3万倍,那么同样的扰动导致对齐数据压缩率的上升速度,会是预训练数据压缩率下降速度的3万倍。这就是"成反比"关系:数据集越大,压缩率变化越慢;数据集越小,压缩率变化越快。由于预训练数据远大于对齐数据,同样的扰动对对齐效果的破坏,远远超过对预训练知识的影响——这可能达到几个数量级的差异。

这个定理的证明基于对模型压缩过程的精细分析。研究者考虑了三个数据集:预训练数据Dp、对齐数据Da、扰动数据Dt。为了简化分析,他们假设这三个数据集的令牌树在某个深度d被剪枝后,叶节点数量相同但分布不同。每个数据集对应的令牌树节点权重(即各个文本序列出现的概率),服从一个重尾的帕累托分布——这个假设得到了语言学中齐普夫定律(Zipf's Law)的支持,该定律表明自然语言中词频分布呈现幂律特征。

当模型在这三个数据集的混合上训练时,混合令牌树中每个节点的权重,是各个数据集对应节点权重的加权平均,权重系数正比于数据集大小。模型的归一化压缩率可以通过对这个混合令牌树的熵进行计算得到。当扰动数据集的大小发生变化时,混合树的结构也会变化,从而导致各个数据集上的归一化压缩率改变。

通过对这个变化过程进行数学推导,研究者得到了一个关键的微分方程。设l表示扰动数据集大小与对齐数据集大小的比值,k表示预训练数据集大小与对齐数据集大小的比值。定理指出,当l很小、k很大时(这正是实际情况:扰动数据远小于对齐数据,预训练数据远大于对齐数据),对齐数据归一化压缩率关于l的导数,约等于负k倍的预训练数据归一化压缩率关于l的导数。

这个关系式的含义是:预训练数据压缩率的变化幅度乘以数据集大小k,等于对齐数据压缩率变化幅度乘以数据集大小(设为1),两者的绝对值近似相等。这正是物理学中串联弹簧系统的行为特征——当对弹簧系统施加力时,每个弹簧的形变量乘以其弹性系数(刚度),对所有弹簧都相等,这就是胡克定律的推广形式。

这个物理类比不仅提供了直观理解,也暗示了某种深层的数学结构。在弹簧系统中,弹性系数大的弹簧难以形变(刚性强),而弹性系数小的弹簧容易形变。类似地,在语言模型中,大数据集对应的"刚性"强,模型的压缩性能难以改变;小数据集对应的"刚性"弱,模型的压缩性能容易改变。整个系统在扰动下寻找一个"力平衡"的状态,但由于不同数据集的"刚性"差异巨大,平衡点必然偏向于保持大数据集的特性,牺牲小数据集的特性。

定理还揭示了归一化压缩率变化的方向:预训练数据的压缩率随扰动增加而下降(意味着性能提升,模型向预训练分布靠拢),对齐数据的压缩率随扰动增加而上升(意味着性能下降,模型偏离对齐分布)。这正式证明了"抵抗"和"反弹"现象:模型抵抗偏离预训练分布,并且会从对齐状态反弹回预训练分布。

这个定理的证明过程涉及复杂的积分计算和泰勒展开,但核心思想可以概括为:由于模型参数空间有限,它必须在不同数据集的压缩任务之间进行权衡;当数据集大小相差悬殊时,这个权衡必然偏向大数据集,因为在信息论意义上,压缩大数据集对整体性能的贡献更大。对齐训练试图让模型适应小数据集的分布,但这种适应是脆弱的——任何扰动都会触发模型重新进行权衡,而权衡结果仍然会偏向大数据集。

研究团队还指出,这个弹性机制使得"逆对齐"(Inverse Alignment)成为可能。逆对齐指的是用比对齐数据少得多的数据,就能将经过对齐的模型恢复到接近预训练状态。由于弹性定理保证了小数据集上性能变化的速度远快于大数据集,恶意使用者只需要少量精心设计的数据,就能消除模型的安全防护。这对开源模型的安全性构成了严重威胁。

值得强调的是,这个定理不依赖于具体的对齐算法或训练过程细节。它是数据规模差异这个根本因素的必然结果。无论使用监督微调、强化学习还是其他任何对齐方法,只要预训练数据规模远大于对齐数据规模,弹性就会存在。这意味着,解决这个问题需要对训练范式进行根本性的改变,而不是仅仅改进对齐算法的细节。

验证"抵抗":为什么未经对齐的模型不愿改变

理论证明了弹性的存在,但理论模型基于诸多假设和简化。语言模型训练的实际过程极其复杂,涉及非凸优化、随机梯度下降、各种正则化技巧等等。弹性现象是否真的存在于真实的语言模型中?研究团队设计了一系列精巧的实验来回答这个问题。

第一个实验针对"抵抗"现象:未经对齐的预训练模型是否真的抵抗改变?研究者设计了一个对比实验来测试这个问题。他们的核心想法是比较两个方向的训练难度:"正向对齐"(让模型从早期状态学习到后期状态)与"逆向对齐"(让模型从后期状态退回到早期状态)。如果模型真的抵抗偏离预训练分布,那么逆向对齐应该比正向对齐更容易。

具体的实验设置是这样的:研究者用一个对齐数据集(比如Alpaca指令跟随数据)来微调一个预训练模型(比如Llama2-7B),在训练过程中每隔一定步数保存一个模型快照,得到一系列快照θ0, θ1, θ2, ..., θn,其中θ0是原始预训练模型,θn是完全对齐后的模型。这些快照代表了模型从预训练状态逐步对齐的不同阶段。

然后研究者对任意两个快照θk和θl(假设k < l,即θk更接近预训练状态,θl更接近对齐状态)进行实验。他们让这两个快照各自在保留的测试提示词上生成回复,分别得到数据集Dk和Dl。这两个数据集反映了处于不同对齐阶段的模型的行为分布。

关键的对比来了:研究者定义"正向对齐"为用Dl数据集训练θk,试图让早期模型学习后期模型的行为;定义"逆向对齐"为用Dk数据集训练θl,试图让后期模型退回到早期模型的行为。如果模型抵抗偏离预训练分布,那么逆向对齐(向预训练分布靠拢)应该比正向对齐(偏离预训练分布)更容易,体现为更低的训练损失。

实验结果非常明确地支持了这个预测。在Llama2-7B、Llama2-13B和Llama3-8B三个不同规模的模型上,使用Alpaca(指令跟随)、TruthfulQA(真实性)和Beavertails(安全性)三个不同类型的对齐数据集,无论选择哪两个快照进行对比,逆向对齐的训练损失都始终低于正向对齐。

以Llama2-7B在Alpaca数据上的结果为例:当比较θ1和θ2时,逆向对齐(θ2→θ1)的损失是0.1589,而正向对齐(θ1→θ2)的损失是0.2018,逆向明显更容易。当跨度更大、比较θ1和θ3时,差异更加明显:逆向对齐的损失是0.1666,正向对齐的损失达到0.2346。这个模式在所有测试的模型和数据集组合中都稳定出现,没有例外。

为什么会这样?根据弹性理论,预训练模型由于在海量数据上训练,形成了强大的"惯性"或"刚性",这使得它倾向于保持自己的分布。当我们试图让早期模型(更接近预训练状态)学习后期模型的行为时,相当于试图拉伸弹簧远离原始位置,遇到的阻力很大。相反,让后期模型回到早期模型的行为,相当于释放已经被拉伸的弹簧,让它回到更接近原始位置,这是弹簧的"自然倾向",因此阻力小。

研究团队还进行了更细粒度的实验来强化这个结论。他们在对齐训练的不同阶段保存更多快照,并测量任意两个快照之间正向和逆向对齐的KL散度(一个衡量两个概率分布差异的指标)。结果显示,逆向对齐产生的KL散度始终小于正向对齐,而且这个差距随着快照之间跨度的增加而扩大。这进一步证实,模型确实存在一个"偏好方向"——向预训练分布移动比远离预训练分布更容易。

这个实验结果有重要的实践意义。它意味着,对于开源模型的使用者来说,即使他们没有恶意,在模型上进行看似无害的微调时也需要格外小心。因为模型天生就"想"回到预训练状态,任何额外的训练都可能在无意中削弱原有的对齐效果。这也解释了为什么一些用户在用专业领域数据微调对话模型后,发现模型变得不那么友好或安全——不是因为专业数据本身有害,而是微调过程触发了模型向预训练分布的回归。

验证"反弹":对齐越深,回弹越快

"反弹"是弹性的另一个重要体现:经过深度对齐的模型,在受到反向扰动时,会快速退化回预训练分布。直观地说,你把弹簧拉得越远,松手后它弹回来的速度就越快。研究团队设计了另一组实验来验证这个预测。

实验的设计思路是:用不同规模的"正面"数据对预训练模型进行对齐训练,得到对齐程度不同的一系列模型;然后用不同规模的"负面"数据对这些模型进行反向微调,观察模型性能的变化。如果反弹现象存在,那么用更多正面数据训练的模型(对齐程度更深),在受到负面数据微调时,性能下降应该更快。

研究者选择了两个具有明确正负对立特征的任务。第一个是情感生成任务,使用著名的IMDb电影评论数据集。数据集中的评论被标注为"正面"(积极评价电影)或"负面"(批评电影)。研究者用不同数量的正面评论数据(1000、2000、5000、10000条)对预训练模型进行微调,得到一系列"正面对齐"的模型。然后用不同数量的负面评论数据(100、200、500、1000、2000条)对这些模型进行反向微调。

第二个任务是对话安全性,使用Beavertails安全对话数据集。数据中的对话被标注为"安全"(符合道德规范和安全准则)或"不安全"(包含有害、偏见或不当内容)。同样,研究者用不同规模的安全数据进行对齐,然后用不同规模的不安全数据进行反向微调。

评估方法也很直接:对于情感任务,使用一个专门的情感分类模型(Sentiment Roberta)来判断生成文本的情感倾向,计算被分类为正面的比例作为模型得分。对于安全任务,使用一个安全性评分模型来给每条生成的对话打分,取平均分作为模型的安全水平。

实验结果清晰地展现了反弹现象的两个关键特征。第一个特征是"初期快速下降"。当用少量负面数据开始反向微调时,模型性能迅速恶化。在情感任务中,用1000条正面数据训练的Llama2-7B模型,初始情感得分约0.9(大部分输出是正面的)。当用仅仅100条负面数据微调后,得分骤降至约0.7;再用200条负面数据,得分降至约0.5。这个初期的急剧下降,正是模型从对齐状态快速"反弹"回预训练分布的体现。

第二个特征是"后期趋于平缓"。当负面数据继续增加时,性能下降的速度明显放缓。从200条增加到500条、1000条甚至2000条负面数据,模型得分的下降幅度越来越小,最终趋于稳定在某个水平(通常在0.2-0.3之间,接近随机水平或预训练模型的水平)。这表明模型已经回到了接近预训练分布的状态,此时继续添加负面数据的边际效应递减——弹簧已经回到了自然长度,再怎么推也很难继续压缩。

更关键的是不同对齐深度之间的对比。用10000条正面数据训练的模型,初始得分可以达到0.95甚至更高,对齐程度明显深于只用1000条数据训练的模型。但是当开始反向微调时,这个高度对齐的模型性能下降得更快。用同样的100-200条负面数据,它可能从0.95直接跌到0.5甚至更低,下降幅度远大于低度对齐的模型。这完美验证了"对齐越深,反弹越快"的预测。

不过,高度对齐的模型在后期(更多负面数据)的表现通常略好于低度对齐的模型。这是因为高度对齐模型在正面行为上确实有更强的基础,虽然反弹很快,但完全回到预训练分布也需要更多的反向推动。这个观察提示,加大对齐数据规模虽然能提供一定程度的保护,但面对弹性机制的根本作用,这种保护是有限的。

研究团队在不同的模型上重复了这个实验。无论是Llama2-7B还是更小的Gemma-2B,都显示出相同的反弹模式。在不同任务(情感生成和安全对话)上,模式也保持一致。这说明反弹不是某个特定模型或任务的特殊现象,而是语言模型的普遍特性。

为了排除对齐算法的影响,研究者还测试了除监督微调(SFT)之外的其他对齐方法,包括基于人类反馈的强化学习(RLHF)、直接偏好优化(DPO)、Kahneman-Tversky优化(KTO)和简单偏好优化(SimPO)。实验流程是先用正面数据通过这些算法对模型进行对齐,然后用负面数据进行反向强化学习(将负面样本作为选择项,正面样本作为拒绝项)。结果显示,无论使用哪种算法,反弹现象都稳定存在,表现出相同的"初期快速下降、后期趋于平缓"以及"对齐越深、反弹越快"的特征。

实验还测试了反向的设置:用负面数据进行"对齐",然后用正面数据进行"反向微调"。比如先让模型学习生成负面情感的文本,然后再用正面数据训练。即使在这个反向设置下,弹性依然存在——用负面数据训练得越多的模型,在受到正面数据微调时,向"负面"分布的回归也越快。这进一步证实,弹性不依赖于正负面的具体语义,而是由数据规模对比决定的普遍机制。

这些实验结果对AI安全实践有深刻启示。它们表明,简单地增加对齐数据量或使用更复杂的对齐算法,虽然能提高初始的对齐效果,但并不能解决弹性带来的脆弱性问题。事实上,对齐得越好的模型,在某种意义上也越"危险",因为它更容易被快速推回不安全状态。这需要我们重新思考开源模型的安全审核标准——一个在发布时看起来很安全的模型,在用户手中可能很快变得不安全。

弹性的放大效应:模型越大,弹簧越硬

理论预测告诉我们,弹性的强度与预训练数据规模和模型规模都有关系。更大的预训练数据量或更大的模型参数量,都会导致预训练分布的"刚性"增强,从而使模型对对齐的抵抗更强、反弹更快。研究团队设计了实验来验证这两个预测。

首先是模型规模的影响。研究者选择了Qwen系列的三个模型:0.5B(5亿参数)、4B(40亿参数)和7B(70亿参数),它们使用相同的训练数据和方法,只是参数量不同。用相同的实验设置(IMDb情感任务和Beavertails安全任务),研究者比较了这三个模型的反弹表现。

结果非常明显:模型越大,反弹越强。以情感任务为例,当用10000条正面数据训练后,三个模型的初始得分都很高(0.90-0.95)。但当用100条负面数据进行反向微调时,7B模型的得分下降幅度最大,可能直接从0.95跌到0.4;4B模型的下降稍缓,跌到0.5左右;而0.5B模型下降最慢,可能只跌到0.6。这个"初期快速反弹"阶段的差异非常显著。

更有趣的是,在后期(大量负面数据)阶段,三个模型的得分都趋向相同的低水平,但7B模型达到这个水平所需的负面数据量最少,0.5B模型需要的最多。换句话说,大模型不仅反弹更快,而且更快地回到预训练分布。这与弹簧类比是一致的:弹性系数大的硬弹簧,拉伸相同距离需要更大的力,但释放后回弹速度也更快。

为什么会这样?从压缩理论的角度,更大的模型有更多参数,可以建模更深的令牌树,因此能更精确地压缩预训练数据。这意味着预训练分布在大模型的参数空间中"刻画"得更深、更牢固。对齐训练试图改变这些参数来适应小数据集,但由于大模型的参数相互关联、结构复杂,这种改变更难以深入到模型的"核心"。一旦有反向的推力(负面数据微调),模型很容易就滑回到那个刻画深刻的预训练状态。

这个发现对大模型的安全性提出了警示。业界普遍认为更大的模型能力更强,也更容易对齐(因为它们理解能力更好)。但弹性研究揭示了另一面:大模型虽然可能在初始对齐效果上更好,但这种对齐也更脆弱。从某种意义上说,大模型是"双刃剑"——既更有能力遵循对齐目标,也更有能力抵抗和回退对齐。

其次是预训练数据量的影响。研究者利用TinyLlama项目公开的训练快照,这个项目在训练过程中定期发布模型检查点,包括分别用0.1T、0.5T、1.0T、2.0T、2.5T和3.0T词条预训练的模型(T表示万亿)。这些模型的架构完全相同,区别只在于预训练数据量,为研究弹性与数据量的关系提供了理想的实验对象。

研究者对这些模型进行了相同的对齐和反向微调实验。结果再次证实了理论预测:预训练数据越多,反弹越强。用0.1T数据预训练的模型,在对齐后受到反向微调时,性能下降相对平缓,没有显著的初期快速反弹;用0.5T数据的模型开始出现明显的反弹特征;用1.0T以上数据的模型,反弹现象非常显著。当预训练数据从2.0T增加到3.0T时,虽然增量只有50%,但反弹速度的差异仍然可观测。

这个结果揭示了一个重要的"临界点"现象。似乎存在某个预训练数据量的阈值(对TinyLlama这个规模的模型,大约在0.1T到0.5T之间),低于这个阈值,弹性不明显;超过这个阈值,弹性迅速变强并随数据量持续增长。这可能对应着模型参数空间的某种"相变":当预训练数据足够多时,预训练分布在参数空间中形成了一个深而窄的"吸引盆",模型的行为难以稳定地偏离这个盆地。

这个发现对训练实践有指导意义。它暗示,如果要追求更安全可控的模型,仅仅通过对齐阶段的努力是不够的,可能需要在预训练阶段就进行数据质量控制。一些研究已经在探索"数据清洗"策略,即在预训练前就尽量移除有害或偏见的内容。虽然这种方法成本高昂、技术上有挑战,但从弹性的角度看,它可能是实现深层对齐的必要条件。

综合模型规模和数据规模两方面的实验,一个清晰的图景浮现出来:随着AI系统变得越来越大、训练数据越来越多,弹性问题不会自然消失,反而会变得更加严峻。这对AI发展路径提出了深刻的挑战。我们是否能够、以及如何在追求更强大AI能力的同时,保证这些能力是安全可控的?弹性研究告诉我们,这两个目标可能存在内在的张力,需要根本性的创新才能同时实现。

弹性揭示的本质:AI安全训练的根本困境

弹性现象不仅是一个有趣的观察,更揭示了当前AI对齐范式的一个根本性困境。要理解这个困境,我们需要回到对齐任务的本质:我们试图用小规模、精心策划的数据来覆盖和修正由大规模、未筛选数据形成的模型行为。这在数学上几乎注定是不稳定的。

从信息论的角度看,模型的行为分布是由训练数据的分布塑造的。预训练阶段,模型在数万亿词条的互联网文本上学习,这些数据虽然包含有害内容,但也包含了人类语言和知识的绝大部分模式。模型的参数通过优化过程,编码了这个巨大数据集的统计规律。可以说,预训练分布深深地"刻印"在了模型的参数空间中。

对齐阶段,我们用数万到数十万条精心设计的对话样本来训练模型。这些数据代表了我们希望模型展现的理想行为。但相比预训练数据,对齐数据的规模小了数个数量级。从信息论的角度,对齐数据携带的信息量远小于预训练数据。模型在对齐训练中学到的,更像是对预训练分布的一个"小修正"或"表层覆盖",而不是对内在表征的深层改变。

弹性理论精确地量化了这种不对称性。当模型同时"记住"多个数据集时(预训练数据和对齐数据可以看作两个不同的记忆任务),它必须在有限的参数空间中分配资源。由于预训练数据量远大于对齐数据量,从压缩效率或信息论角度,模型自然会"优先"保持对预训练数据的良好压缩,而对齐数据的压缩性能相对次要。这不是模型主动的"选择",而是优化过程的数学必然。

这就解释了为什么对齐如此脆弱。对齐训练虽然改变了模型的输出行为,但这种改变主要发生在参数空间的"外层"或"表面"。模型的"核心"仍然是预训练分布塑造的。任何后续的微调,无论是否恶意,都会触发模型重新调整参数来平衡多个目标。而由于预训练数据的绝对优势,这个平衡过程倾向于恢复预训练状态,牺牲对齐效果。

这个洞察得到了其他独立研究的支持。有研究通过神经网络剪枝实验发现,与安全对齐相关的参数变化,往往集中在模型的某些特定层或秩较低的子空间,而不是均匀分布在整个参数空间。这暗示对齐确实是"浅层"的。还有研究通过权重归因分析发现,对齐后模型中很大一部分参数与安全行为几乎无关,它们仍然保持着预训练状态。这些证据都指向同一个结论:当前的对齐方法没有真正深入改变模型。

更深层的问题在于,即使我们大幅增加对齐数据量,也很难根本解决弹性问题。假设我们将对齐数据从10万条增加到1000万条,听起来很多,但相比数万亿词条的预训练数据,仍然相差三到四个数量级。弹性定理预测的不对称性依然存在,只是程度略有改善。而且,收集和标注1000万条高质量对齐数据的成本是难以想象的,可能需要数亿美元和数年时间。

那么,是否可以减少预训练数据量来平衡两者的规模?这在实践中也不可行。预训练数据的规模是模型能力的基础,大幅减少预训练数据会严重损害模型的语言理解、知识储备和推理能力。一个只在少量"安全"数据上训练的模型,可能确实不会产生有害内容,但它也可能无法胜任复杂的任务,失去了实用价值。

这就是弹性揭示的根本困境:在当前的预训练-微调范式下,我们陷入了一个两难境地。一方面,强大的模型能力需要海量的预训练数据;另一方面,海量的预训练数据必然带来强大的弹性,使得安全对齐难以稳定。在不改变训练范式的前提下,这个矛盾似乎难以调和。

这个困境也解释了为什么许多看似有前景的对齐技术在实践中效果不佳。比如有研究提出"宪法式AI",通过让AI自己生成安全规则并进行自我批评来改进对齐。这个方法在一定程度上减少了人类标注的需求,但没有改变对齐数据与预训练数据规模悬殊的根本问题,因此仍然面临弹性的威胁。又比如有研究提出更复杂的奖励建模和强化学习算法,但只要对齐阶段使用的数据量远小于预训练,弹性就会存在。

开源模型的安全悖论:公开与可控的艰难平衡

弹性研究对开源AI模型的发展提出了严峻的挑战。开源模型是AI民主化的重要途径,让学术界、小企业和个人开发者都能访问先进的AI技术,极大地推动了创新和研究。但弹性现象揭示,开源模型权重可能带来难以控制的安全风险。

开源模型的风险在于,任何人都可以下载模型参数并用自己的数据进行微调。模型开发者可以花费大量资源进行安全对齐和严格审核,确保模型在发布时行为良好。但是,弹性意味着用户只需要相对少量的数据和计算资源,就可能消除这些安全防护,让模型恢复到不安全的预训练状态,甚至训练出更糟糕的行为。

这种"逆对齐"攻击的门槛可能比我们想象的更低。研究显示,用数百到数千条精心设计的样本,就足以让一个经过数万条样本对齐的模型退化。这些样本不需要非常复杂,甚至可以用自动化方法生成。对于恶意行为者来说,这意味着即使是经过精心对齐的开源模型,也可以被轻易改造成有害工具。

具体的风险场景包括:恶意内容生成(将安全对齐的模型改造成生成虚假信息、仇恨言论或有害指导的工具)、隐私攻击(通过特定微调来提取模型记忆中的敏感信息)、系统滥用(将对话助手改造成用于自动化诈骗或操纵的工具)。而且,由于微调的成本相对低廉,这类攻击可能大规模出现,防不胜防。

传统的安全审核流程在面对弹性时显得无力。目前,模型发布前通常会进行红队测试(Red Teaming),即让安全专家尝试各种方法来触发模型的有害行为,确保没有明显的漏洞才能发布。但这些测试都是针对发布时模型的状态,无法预测模型在用户手中被微调后会变成什么样。弹性告诉我们,一个通过所有安全测试的模型,在下游使用中仍然可能迅速变得不安全。

这对开源模型社区构成了一个深刻的悖论。一方面,开放性是开源的核心价值,限制模型的使用方式违背了开源精神,也在技术上难以实现(一旦权重公开,就无法控制如何使用)。另一方面,完全不加限制的开源可能导致严重的安全和伦理问题,损害公众利益,也可能招致政策监管,最终威胁到整个开源AI生态。

一些研究者提出了"分级开源"的概念:不同能力级别的模型采用不同的开源策略。对于能力较弱、风险较低的模型,可以完全开放权重;对于能力强大、风险较高的模型,可能只开放API访问或部分权重,保留关键部分的控制权。但这个方案面临实施难题:如何划分风险等级?如何在保留控制的同时保持开源的价值?而且,即使是"中等能力"的模型,如果存在弹性,也可能被改造出高风险应用。

弹性研究暗示,真正的解决方案可能需要更根本的创新。理想的情况是开发出"不可调谐的对齐"方法,使得安全约束深入到模型的核心表征中,而不是停留在表层。这样的对齐应该与模型的基本能力融为一体,无法轻易分离。一些初步的想法包括:在预训练阶段就进行持续的对齐引导,而不是等到预训练完成后再对齐;设计新的模型架构,将价值对齐作为内在约束而不是外部目标;或者开发全新的训练范式,跳出预训练-微调的框架。

从弹性到新范式:未来AI对齐的可能方向

弹性研究不仅指出了问题,也为解决问题提供了思路。如果弹性的根源在于预训练数据与对齐数据规模的悬殊,那么新的对齐范式应该致力于缩小或消除这种悬殊,或者从根本上改变训练过程,使对齐成为模型发展的内在部分而非外加约束。

第一个方向是"持续对齐"(Continual Alignment)。与其将预训练和对齐看作两个分离的阶段,不如在整个训练过程中持续进行对齐引导。具体来说,可以在预训练期间就混入对齐数据,虽然对齐数据量相对很小,但由于它从一开始就参与模型的形成,可能在参数空间中占据更核心的位置。这类似于在混凝土凝固过程中加入钢筋,而不是在凝固后再外加支撑——前者的结构更加牢固。

实现持续对齐需要克服一些技术挑战。预训练数据和对齐数据的格式、质量和目标可能差异很大,如何有效地混合它们需要精细的课程学习策略。而且,在预训练早期阶段,模型的基本语言能力尚未形成,过早引入复杂的对齐目标可能反而妨碍学习。一个可能的方案是分阶段持续对齐:早期侧重基本语言规范和事实准确性,中期引入更复杂的价值对齐,后期进行任务专精和安全强化。

第二个方向是"预训练数据治理"(Pre-training Data Curation)。既然预训练数据是弹性的根源,那么提高预训练数据的质量,减少其中的有害成分,就能从源头上缓解问题。理想情况下,如果预训练数据本身就基本符合人类价值观,那么预训练形成的分布就不会与对齐目标严重冲突,弹性问题自然减轻。

第三个方向是"架构创新"(Architectural Innovation)。当前的Transformer架构虽然强大,但它将所有知识和能力都编码在同一套参数中,导致预训练和对齐的信号混杂在一起。新的架构可能需要某种形式的"模块化",将不同类型的知识和约束分离到不同的模块中。

一个设想是"双系统架构",灵感来自人类认知的双过程理论(System 1和System 2)。第一个系统负责基本的语言理解和知识检索,相当于现在的预训练模型;第二个系统负责价值判断、意图推理和行为约束,专门用于对齐。两个系统协同工作,但有各自独立的参数空间和训练目标。这种分离可能让对齐更加稳固,因为即使第一系统被微调,第二系统仍然保持约束作用。

另一个想法是"可证明安全的约束层"。在模型之上添加一个约束层,这个层有数学可证的安全属性,能够保证某些类型的有害输出永远不会产生。这类似于编程语言中的类型系统,通过静态检查防止某些错误。虽然这种方法目前只能处理简单、形式化的约束,但如果能扩展到更复杂的语义约束,可能提供强有力的安全保证。

例如,有研究发现模型中存在特定的神经元群负责检测和抑制有害内容,这些神经元可能是对齐训练的主要作用点。如果能强化这些神经元的功能,或者将它们的激活阈值调低,可能增强安全性。但这需要对模型内部有深入的理解,目前的可解释性技术还远远不够成熟,能处理的模型规模也有限。

第五个方向是"多模态锚定"(Multi-modal Anchoring)。弹性在语言模型中特别显著,部分原因是语言信号相对抽象,同样的语言模式可能对应不同的语义意图。如果能将语言模型与其他模态(如视觉、听觉、甚至物理交互)结合,提供更多的接地信号,可能让模型的表征更加稳定,对齐更加牢固。

这个想法基于具身认知理论:人类的价值观和社会规范不仅仅是抽象的语言规则,还深深根植于我们的感知和行动经验中。一个真正理解"伤害"概念的系统,不仅要知道语言中"伤害"这个词,还应该理解疼痛的感觉、痛苦的表情、受伤的后果。多模态AI系统可能天然地具有更强的价值对齐,因为它们的学习不仅来自文本,还来自对世界的多方面感知。

所有这些方向都还处于早期探索阶段,面临诸多理论和实践挑战。但弹性研究为这些探索提供了明确的目标:我们需要找到方法,使对齐不再是对预训练模型的"表面修补",而是成为模型核心能力和表征的有机组成部分。这可能需要重新思考整个AI开发流程,从数据收集、模型架构、训练算法到评估标准,都围绕安全性和对齐性进行设计。

这是一个长期的研究议程,需要AI安全、机器学习、认知科学、伦理学等多个领域的协作。但考虑到AI系统的快速发展和日益广泛的应用,这项工作的紧迫性不言而喻。弹性研究敲响了警钟,也指明了方向。我们能否成功开发出真正可靠、安全的AI系统,可能取决于我们能否解决弹性问题,实现从"浅层对齐"到"深层对齐"的跨越。

至顶AI实验室洞见

北京大学团队的这项研究揭开了AI安全领域一个不愿面对的真相:我们以为已经驯服的AI,可能只是表面上听话,内心仍然保留着野性。就像一根被拉伸的弹簧,表面上被拉直了,但内在的结构决定了它随时可能弹回原状。这个发现既令人不安,又充满启发。

不安的是,它意味着我们目前投入巨大资源进行的安全对齐工作,可能效果有限。所有那些精心设计的对话示例、人类标注员的辛苦评分、复杂的强化学习算法,可能都只是在做表面功夫。一个看似完美对齐的模型,在真实世界的使用中,可能轻易被推回到不安全的状态。开源模型的普及更是放大了这个风险,因为任何人都可以轻松进行可能有害的微调。

但这个发现也充满启发。它用压缩理论这个新颖的视角,为我们提供了理解和量化对齐稳定性的数学工具。弹性定理不仅解释了已知的异常现象,还做出了可验证的预测,这些预测在多个模型和任务上得到了实验证实。更重要的是,通过揭示弹性的根本原因——预训练与对齐数据规模的悬殊对比,研究指明了可能的解决方向。

这项工作提醒我们,AI安全不是一个可以在模型训练完成后再"打补丁"解决的问题。它需要贯穿整个AI系统的设计和开发过程,从数据收集开始,到预训练、对齐、部署,每个环节都需要安全性的考量。我们可能需要开发全新的训练范式,让安全约束成为模型能力的内在组成部分,而不是外加的约束。

对于普通用户来说,这项研究也有实践意义。当你使用开源AI模型时,要意识到这些模型可能没有看起来那么安全。经过安全训练的模型在被微调后可能变得不安全,因此在关键应用中使用微调模型需要格外谨慎。对于AI从业者来说,这项工作强调了持续安全监测的重要性,不能假设一次对齐就能一劳永逸。

论文地址：

https://arxiv.org/pdf/2406.06144

END

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1:什么是语言模型的"弹性"?为什么会存在这种现象?

A:语言模型的弹性是指模型在经过安全对齐训练后,仍然倾向于保持和恢复其预训练阶段形成的行为分布。这就像物理学中的弹簧,被拉伸后会试图回到原来的形状。弹性包括两个方面:抵抗(预训练模型抵抗偏离原有分布的训练)和反弹(对齐越深的模型,在受到反向扰动时回弹速度越快)。弹性存在的根本原因是预训练数据量(通常数万亿词条)远大于对齐数据量(通常数万至数十万条),这种巨大的规模差异导致模型在参数权衡时天然偏好保持预训练分布。从数学角度,研究者证明了模型在不同数据集上的压缩率变化与数据集大小成反比,这意味着同样的扰动对小数据集的影响远大于对大数据集的影响,可能达到数个数量级的差异。

Q2:弹性现象对AI安全有什么实际影响?开源模型特别危险吗?

A:弹性现象意味着即使经过精心安全训练的语言模型,也可能通过相对少量的额外微调轻易恢复到不安全状态,这被称为"逆对齐"。研究显示,用数百到数千条样本就可能消除用数万条样本建立的安全防护。这对开源模型构成特殊挑战,因为任何人都可以下载模型权重并进行微调,可能在有意或无意中消除安全机制。模型开发者虽然在发布前进行严格的安全审核,但弹性使得这些审核只能保证发布时的状态,无法防止下游使用中的退化。更令人担忧的是,研究发现模型越大、预训练数据越多,弹性反而越强,这意味着未来更强大的模型可能面临更严重的对齐脆弱性问题。这不仅影响开源模型,也对闭源API服务构成风险,因为用户可能通过特定的提示词或微调接口触发类似的效应。

Q3:如何克服语言模型的弹性?有什么可能的解决方案?

A:克服弹性需要根本性的技术创新,而不是简单改进现有对齐算法。几个可能的方向包括:持续对齐,即在整个预训练过程中就混入对齐数据,而不是等预训练完成后再对齐,这样对齐目标可能更深入模型核心;预训练数据治理,从源头提高数据质量,减少有害内容,虽然成本高昂但可能是根本解决之道;架构创新,如开发模块化架构将安全约束与基础能力分离,或添加可证明安全的约束层;机械可解释性研究,深入理解模型内部机制后进行更精确的对齐干预;以及多模态锚定,通过视觉等其他模态提供更稳定的价值对齐基础。短期内,实践措施包括加强对齐数据规模使其更接近预训练数据量(虽然难度大)、开发反微调技术提高对齐鲁棒性、建立开源模型使用监测机制等。研究者强调,解决弹性问题需要从预训练到部署的全流程安全设计,而不是事后补救。

上一篇：调皮女孩被老师请家长，妈妈：第一次找家长必须奶奶来

下一篇：重新定义出行：“去哪里”转向“为何而行”，四大趋势发布

北大团队揭秘AI安全训练为何如此脆弱——大模型中隐藏的"弹簧效应"

相关内容

热门资讯