上海交通大学破解AI训练难题：如何让合成数据不再"越用越笨"_热点

上海交通大学破解AI训练难题：如何让合成数据不再"越用越笨"

创始人

2026-03-10 17:32:18

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：科技行者）

这项由上海交通大学LUMIA实验室、清华大学电子工程系、北京大学人工智能研究院以及北京智源人工智能研究院联合进行的研究发表于2025年的第42届国际机器学习大会（ICML），论文编号为PMLR 267，为解决人工智能训练中的"模型坍塌"问题提供了创新方案。

现在的AI模型就像一个不断学习的学生，需要大量的训练材料才能变得聪明。但是，随着AI技术的快速发展，互联网上高质量的人类原创内容已经不够用了。于是，研究人员开始让AI自己生成训练数据，就像让学生自己写作业来练习一样。然而，一个令人担忧的现象出现了：当AI主要用自己生成的内容来训练时，它们不仅没有变得更聪明，反而开始"退化"，这种现象被称为"模型坍塌"。

这就好比一个人只听自己说话，时间长了就会陷入思维僵化。当AI模型反复训练自己生成的内容时，就像在一个回音室里不断重复同样的声音，最终失去了对真实世界复杂性的理解能力。这个问题对于未来GPT-n系列模型的发展构成了严重威胁，因为它们不可避免地会在包含大量合成数据的互联网环境中进行训练。

研究团队发现，即使不进行反复迭代训练，仅仅是在训练数据中混入合成数据，也会导致模型性能下降。这种"非迭代模型坍塌"现象表明，合成数据本身就存在根本性问题。通过深入分析，研究人员发现合成数据就像一个缺少调料的菜谱，虽然看起来完整，但缺乏真实数据中的"长尾分布"和丰富的特征变化。

面对这一挑战，研究团队提出了一种名为"标记级编辑"（Token-Level Editing，简称ToEdit）的创新方法。与完全依赖合成数据不同，这种方法更像是对原有食谱进行精心调味，而不是重新创造一道菜。通过这种方式，他们成功地在保持数据原有分布特征的同时，提升了训练效果。

一、合成数据的"营养不良"问题

当研究人员深入分析为什么合成数据会导致AI模型性能下降时，他们发现了一个有趣的现象。可以把真实的人类数据比作一个营养丰富的大餐，包含各种口味从清淡到浓郁的菜品。而合成数据更像是快餐，虽然能填饱肚子，但营养成分相对单一。

研究团队使用GPT-2和OLMo等主流语言模型进行了大规模实验，训练数据量达到500亿个标记。他们发现，随着训练数据中合成数据比例的增加，模型在真实世界任务上的表现会系统性地下降。这就像一个只吃快餐的人，虽然不会饿死，但身体素质会逐渐变差。

更令人担忧的是，这种性能下降不需要多轮迭代训练就会发生。即使是首次将合成数据与真实数据混合训练，也会立即观察到性能下降。研究人员在Paloma基准测试和22个子领域的评估中都发现了这一现象，证明了问题的普遍性和严重性。

通过统计分析，研究团队发现了合成数据"营养不良"的根本原因。首先是"覆盖范围缩窄"问题。当使用Llama-3-8B模型来评估数据质量时，他们发现真实数据的困惑度分布范围很广，从0到100+，就像一个包含各种难度菜品的完整菜谱。而合成数据的困惑度主要集中在0到14的范围内，只占真实数据分布的前25%。这意味着合成数据缺少了那些"有挑战性"的样本，就像一本只有简单菜谱的烹饪书，无法培养出真正的厨艺大师。

其次是"特征过度集中"问题。研究人员分析了n-gram特征（可以理解为语言中的"调料组合"），发现合成数据在某些特定的双词组合上出现频率异常高，而在特征空间的分布上过于集中。这就像所有菜品都使用相似的调料组合，缺乏真实世界语言的丰富性和多样性。

最令人意外的是，即使使用先进的数据选择技术，如DSIR（数据选择重要性重采样），也无法有效改善合成数据的分布问题。研究人员尝试用真实数据的特征作为参考来筛选合成数据，但结果显示，筛选后的数据在嵌入空间中仍然无法与真实数据很好地对齐，这表明合成数据的问题是结构性的，而非简单的质量筛选问题。

二、创新的"标记级编辑"解决方案

面对合成数据的固有缺陷，研究团队没有选择完全抛弃合成数据的路线，而是提出了一种更加巧妙的方法。他们的核心思想是：与其从零开始烹饪一道全新的菜（完全合成数据），不如在现有的优质食材基础上进行精心调味（标记级编辑）。

这种方法的灵感来自于对语言模型概率分布的深入观察。研究人员发现，即使是在数万亿个标记上训练的大型语言模型，对于预训练语料库的拟合也不是完美的。当他们使用Qwen-0.5B-Instruct模型分析Dolma数据集中的标记概率分布时，发现了一个有趣的U型分布：大约75%的标记概率低于0.6，而高概率和低概率的标记都相对集中。

这个U型分布就像一个天然的质量指示器。高概率的标记表示"容易预测的内容"，可能包含了一些过于模式化或简单的信息；而低概率的标记往往代表"有挑战性的内容"，包含了更多的信息量和复杂性。基于这一发现，研究团队设计了标记级编辑算法。

具体来说，标记级编辑的工作原理是这样的：对于输入的文本序列，算法会逐个计算每个标记在给定上下文中的条件概率。当某个标记的概率超过设定阈值（通常是0.99）时，算法就会认为这个标记"过于容易预测"，需要进行重新采样。重新采样不是随机替换，而是基于当前上下文的概率分布来选择一个更合适的替代标记。

这种方法的优美之处在于它只需要一次前向传递就能完成，不需要像传统自回归生成那样进行多轮计算。这使得整个数据编辑过程可以在单个GPU上高效完成，大大降低了计算成本。研究团队使用了vLLM推理引擎来加速这一过程，使得即使在消费级的4090 GPU上也能快速处理大规模数据。

更重要的是，这种方法在理论上有坚实的基础。研究团队证明了标记级编辑可以将测试误差限制在一个有限的上界内，而不是像传统模型坍塌那样随着迭代次数无限增长。具体而言，传统的迭代训练会导致测试误差按照公式E_test(w_n) = (σ?d)/(T-d-1) × n 增长，其中n是迭代次数。而使用标记级编辑后，测试误差被限制在E_test(w_{n+1}) ≤ (2σ?d)/(T-d-1)，这是一个固定的上界，不会随着迭代次数增加。

三、令人振奋的实验结果

为了验证标记级编辑方法的有效性，研究团队设计了三个层次的全面实验：从头预训练、持续预训练和监督微调。这些实验就像在不同的烹饪环境中测试新调料的效果，确保方法的普适性和可靠性。

在从头预训练实验中，研究团队使用OLMo-1B模型在60亿个标记的Dolma数据集上进行训练。结果显示，使用标记级编辑处理过的数据训练出的模型在8个通用下游任务上的平均性能从32.75提升到33.11。虽然提升幅度看起来不大，但在大型语言模型的评测中，即使0.3个百分点的提升也是非常显著的，这表明方法在保持数据原有质量的同时成功地进行了优化。

持续预训练实验更加令人印象深刻。研究团队在三个专业领域——生物医学、金融和数学——进行了测试，使用OLMo-1B和Llama-3-8B两个不同规模的模型。在生物医学领域，OLMo-1B的平均性能从36.63提升到40.89，提升幅度达到4.26个百分点。Llama-3-8B的性能也从54.13提升到56.48。这种一致的改善表明，标记级编辑不仅适用于通用语言建模，也能有效提升专业领域的性能。

特别值得注意的是，在金融领域的实验中，标记级编辑在多个具体任务上都显示出了稳定的提升。例如，在新闻标题分类任务中，OLMo-1B的性能从69.00提升到71.77；在金融短语情感分析任务中，性能从48.05提升到46.06。虽然个别任务可能有小幅波动，但总体趋势是积极的，平均性能提升超过2个百分点。

监督微调实验进一步证实了方法的广泛适用性。研究团队在指令微调和代码推理两大类任务上测试了Llama-3-8B模型。在自然指令任务中，模型的平均性能从69.34提升到69.70；在思维链推理任务中，从69.01提升到69.26。在代码推理任务中，开源指令数据集的性能从45.76提升到46.13，进化指令数据集的性能从46.62提升到46.92。

这些实验结果的重要性不仅在于数字上的提升，更在于它们证明了标记级编辑方法的一个关键特点：它能够在不增加数据量的情况下提升模型性能。这就像用同样的食材做出更美味的菜肴，体现了方法的高效性和实用性。

研究团队还进行了详细的消融实验来优化方法的关键参数。他们发现，重采样概率阈值p的设置对结果有重要影响。当p设置为0.99时，约有12.5%的标记会被重新采样，这个比例在保持原始数据分布和引入有益变化之间取得了良好的平衡。采样策略的选择实验显示，top-k采样（k=8）在效果和计算效率之间达到了最佳平衡，比top-p采样和拒绝采样更适合大规模应用。

四、深层机理的科学解释

为了理解为什么标记级编辑能够有效防止模型坍塌，研究团队从信息论和统计学习理论的角度提供了深入的科学解释。这些理论分析就像为一个成功的烹饪方法找到了科学依据，不仅解释了为什么它有效，还预测了在什么条件下会继续有效。

从信息论的角度来看，标记级编辑的核心作用是调节数据的信息熵分布。真实的人类语言遵循复杂的概率分布，包含了从高频常见词汇到低频专业术语的完整光谱。而合成数据往往在高概率区域过度集中，就像一个失衡的天平。标记级编辑通过重新采样高概率标记，实际上是在将U型分布向更均匀的分布调整，从而最大化信息熵。

根据信息论的基本原理，当一个离散随机变量的所有结果都具有相等概率时，其信息熵达到最大值H(X) = log n。这意味着数据携带了最大可能的信息含量。标记级编辑通过重新采样高概率区域的标记，实际上是在向这个理论最优值靠近，从而增加了数据集的信息密度。

从统计学习的角度，研究团队建立了基于线性回归的理论框架来分析标记级编辑的效果。他们证明了在数据编辑设置下，拟合的线性参数可以表示为w_{n+1} = w* + (X^T X)^{-1} X^T (E_1 + Σ_{i=1}^n M_i E_{i+1})，其中M_i是编辑操作矩阵，E_i是各轮添加的噪声项。这个公式揭示了标记级编辑如何通过控制编辑矩阵M_i来限制误差的累积。

实际的数据分析进一步支持了这些理论预测。当研究团队追踪多代编辑过程中需要修改的标记比例时，发现了一个有趣的递减模式：第一代中有12.5%的标记需要编辑，第二代降至11.76%，第三代进一步降至11.08%。这种逐渐减少的趋势恰好符合理论分析中的收敛预测，表明编辑过程正在将数据分布引导向一个更稳定的状态。

从语言模型学习的角度来看，标记级编辑强调了"困难样本"的重要性。通过重新采样容易预测的标记，该方法实际上是在迫使模型关注那些更具挑战性和信息量的内容。这类似于教育心理学中的"最近发展区"理论，即学习者在稍有挑战但仍可达成的任务中获得最大的学习效果。

研究团队还发现，标记级编辑在保持原始数据分布覆盖范围方面具有独特优势。与完全合成的数据不同，经过编辑的数据保留了原始人类数据的"长尾分布"特征。这种长尾分布对于语言模型的泛化能力至关重要，因为它包含了现实世界中那些罕见但重要的语言现象和知识。

五、对AI发展的深远影响

这项研究的意义远超出了技术层面的创新，它为整个人工智能领域的可持续发展提供了新的思路。随着AI模型规模的不断扩大和应用范围的持续扩展，训练数据的质量和可持续性问题已经成为制约行业发展的关键瓶颈。

当前的AI训练正面临着一个根本性的矛盾：一方面，更强大的AI模型需要更多的高质量训练数据；另一方面，互联网上的高质量人类原创内容是有限的。一些研究预测，在2024-2026年之间，可用的高质量文本数据将被耗尽。这意味着未来的AI训练必须依赖某种形式的合成或半合成数据。

标记级编辑为这一挑战提供了一个优雅的解决方案。它不是简单地生成更多的合成数据，而是通过精巧的编辑技术来提升现有数据的质量和多样性。这就像是在有限的食材基础上，通过巧妙的烹饪技巧创造出无限的美味可能性。这种方法不仅更加资源高效，也避免了完全依赖合成数据可能带来的质量问题。

从计算资源的角度来看，标记级编辑的高效性具有重要的环境和经济价值。传统的大规模数据生成需要消耗大量的计算资源和电力，而标记级编辑只需要一次前向传递就能完成数据优化。这种效率优势意味着更多的研究机构和公司能够负担得起高质量的数据准备过程，从而促进AI技术的民主化和普及化。

对于不同规模的AI开发者而言，这项技术提供了不同层次的价值。对于大型科技公司，标记级编?it能够帮助他们在现有数据基础上进一步提升模型性能，延长高质量训练数据的使用周期。对于中小型研究机构，这种方法降低了数据准备的门槛，使他们能够用较少的资源获得更好的训练效果。

更重要的是，这项研究为AI安全和可控性提供了新的思路。传统的完全合成数据生成过程往往是一个"黑盒"，难以控制和预测其输出质量。而标记级编辑是基于现有真实数据的有限修改，这种可控性使得研究人员能够更好地理解和调节训练数据的特性，从而降低AI系统出现不可预期行为的风险。

研究团队的理论分析还揭示了一个重要的设计原则：在AI系统的数据处理中，保持与真实世界分布的连接比追求完美的合成数据更加重要。这个原则对于未来AI系统的设计具有深远的指导意义，它提醒我们在追求技术创新的同时，不要忽视与真实世界的根本联系。

从长远来看，标记级编辑可能会催生一个全新的"数据工程"领域。就像软件工程从简单的编程发展成为一个成熟的学科体系一样，围绕AI训练数据的准备、优化和管理也可能发展成为一个专门的技术领域。这将包括数据质量评估、分布优化、编辑策略设计等多个方面的专业技术。

六、实际应用前景与挑战

虽然标记级编辑在理论和实验层面都显示出了巨大的潜力，但将其应用到实际的AI开发流程中仍然面临一些挑战和需要进一步探索的问题。

首先是规模化应用的技术挑战。虽然研究团队已经证明了该方法在单个GPU上的可行性，但当面对真正的大规模数据集（如数百TB的训练语料）时，仍需要进一步的工程优化。这包括分布式处理策略、内存管理优化、以及与现有ML流水线的集成等方面。不过，由于方法本身的并行友好性质，这些挑战主要是工程实现层面的，而非根本性的技术障碍。

其次是参数调优的复杂性。虽然研究团队提供了一些默认参数设置（如p=0.99，k=8），但不同的数据域和应用场景可能需要不同的参数组合。如何为特定应用找到最优参数，以及如何自动化这个调优过程，都是实际应用中需要解决的问题。这可能需要开发专门的参数搜索算法或者基于数据特征的自适应参数调整机制。

另一个重要考虑是数据版权和合规性问题。标记级编辑虽然只是对现有数据进行有限修改，但在某些法律框架下，这种修改是否构成"衍生作品"，是否需要额外的授权，都需要法律专家的进一步解释。这个问题在商业化应用中尤为重要，可能会影响技术的采用速度。

从技术发展的角度来看，标记级编辑也为其他相关技术的发展开辟了新的方向。例如，可以探索基于不同语言模型的编辑策略，或者开发专门针对特定数据类型（如代码、数学公式、多模态数据）的编辑算法。这些扩展研究可能会进一步提升方法的效果和适用范围。

研究团队也指出了一些需要进一步研究的理论问题。例如，当前的理论分析主要基于线性模型假设，虽然这为理解基本机制提供了有价值的洞察，但真实的深度学习模型要复杂得多。如何将理论分析扩展到非线性、高维的神经网络设置，是一个重要的理论挑战。

此外，关于"最优编辑策略"的研究也刚刚开始。当前的标记级编辑主要基于概率阈值来决定是否编辑某个标记，但可能存在更智能的编辑策略。例如，可以考虑标记的语义重要性、上下文相关性、或者与训练目标的关联度等因素。这些更精细的编辑策略可能会带来更大的性能提升。

从生态系统的角度来看，标记级编辑的普及可能会改变整个AI训练数据的价值链。当高质量的原始数据变得更加宝贵时，围绕数据编辑、优化和增强的服务可能会成为新的商业机会。这可能会催生专门的数据服务公司，类似于今天的云计算服务提供商。

说到底，这项由上海交通大学等机构联合完成的研究为AI领域的一个核心问题提供了既优雅又实用的解决方案。通过巧妙地编辑现有数据而非完全依赖合成数据，它不仅解决了模型坍塌的技术难题，也为AI技术的可持续发展指明了新的方向。虽然从实验室到实际应用还有一段路要走，但这种"以真实为锚，适度创新"的思路已经为整个行业提供了宝贵的启示。对于那些希望深入了解这一突破性工作的读者，可以通过ICML 2025会议论文集或论文编号PMLR 267查询完整的技术细节。

Q&A

Q1：标记级编辑方法是如何工作的？

A：标记级编辑通过分析文本中每个词汇的预测概率来工作。当某个词汇的概率超过设定阈值（通常是99%）时，算法认为这个词过于"容易预测"，就会基于上下文重新选择一个更合适的替代词。这个过程只需要一次计算就能完成，不需要重新生成整个文本。

Q2：为什么完全使用合成数据训练AI会导致模型坍塌？

A：合成数据就像营养单一的快餐，缺乏真实数据的丰富性和复杂性。研究发现合成数据主要集中在"容易预测"的范围内，缺少那些具有挑战性的长尾样本。当AI反复训练这种"营养不良"的数据时，就会失去对真实世界复杂性的理解能力，导致性能下降。

Q3：标记级编辑方法相比传统数据生成有什么优势？

A：标记级编辑的最大优势是计算效率高且效果稳定。它只需要一次前向计算就能优化数据，比传统的自回归数据生成快1000多倍，在普通GPU上就能处理大规模数据。同时，由于它保持了原始真实数据的分布特征，避免了纯合成数据带来的质量问题。

上一篇：绿地香港：前两月合约销售约10.96亿元

下一篇：浙里巾帼，弄潮先锋！看“浙”里如何打造女性“出圈”新名片→

上海交通大学破解AI训练难题：如何让合成数据不再"越用越笨"

相关内容

热门资讯