炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
近日,美国弗吉尼亚大学教授沈聪和团队提出一种多示例自适应伪标注方法——MAPLE(Many-Shot Adaptive Pseudo-LabEling)。它是一种专门用于提升大语言模型在多示例学习中表现的新机制,特别适用于只有少量标注数据、但有很多未标注数据的情况。
图 | 沈聪(来源:沈聪)在传统的大语言模型应用中,往往需要大量人工标注的数据,这既昂贵又耗时。研究团队的工作想解决的是:如何充分利用这些“还没标注”的数据,帮助模型更好地完成任务?为此研究团队设计了两个关键技术:
1. 伪标签样本的挑选方法:他们通过构建一个图,把已标注和未标注的数据联系起来,挑选出对任务最“有影响力”的未标注样本,并使用大语言模型给它们打上“伪标签”。这样一来,模型就能从这些有代表性的样本中学到更多。
2. 自适应示例选择策略:对于每个测试问题,他们会根据它的特点,从标注样本和伪标签样本中智能地挑选出最相关的几个示例,而不是用一套固定模板。这样能更有效地提高模型的准确性和泛化能力。
研究团队做了大量实验,证明这种方法不仅能减少对昂贵标注数据的依赖,还能在多个真实任务中表现优异。对于相关论文,审稿人认为本次研究为大语言模型在低标注场景中的应用提供了一条可行路径。
这一成果可被用于需要智能处理文本、但缺少大量人工标注数据的场景中,能够为多示例学习生成大量伪标注的数据。
举例来说:
首先,可用于客服和问答系统:很多公司有着大量的历史对话数据,但是没有标注问题类型。本次方法可以利用这些未标注数据,帮助大语言模型更好地理解和回答用户的问题,而不需要人工标注大量示例。
其次,可用于医疗、金融等专业领域的智能助手:这些领域的标注成本很高,本次方法可以使用少量专家标注数据,再加上大量的未标注案例就能构建更精准的问答系统或摘要系统。
再次,可用于教育类场景:比如自动生成讲解或习题反馈。很多题目或学生回答是未标注的,而本次方法可以帮助模型学会更好地给出解释,进而达到辅助教学的作用。
最后,可用于低资源语言或小语种的AI 应用场景:对于缺乏标注数据的语言,可以通过伪标签机制挖掘未标注资源,加速这些语言的 AI 系统落地。
总的来说,这项成果可以帮助大语言模型在数据不足的实际环境中“用少量带动多数”,更高效地发挥作用,让AI 走进更多行业、更多场景。
(来源:ICML)据了解,上下文学习(ICL,In-context Learning)是让模型通过提示中的几个例子学会如何完成任务,而不需要重新训练它。随着大语言模型的更新换代,新的模型可以接受更长的文本输入,这为上下文学习提供了新的机遇。Google 的研究人员在 2024 年的论文中提到通过增加提示中例子的数量可以提升上下文学习的性能,并将其称之为多示例上下文学习(Many-shot ICL)。
本次研究团队注意到,为了充分发挥多示例上下文学习在给定任务上的潜力,往往需要一个包含大量属于该任务带标注样本的数据集,而标注大量数据所需的成本有限制了获取这样的数据集的难度,特别是在一些新领域或者较难的任务下。基于以上原因,研究团队进行了这次研究。他们希望充分利用大语言模型的能力来获得伪标注数据,从而用于多示例上下文学习。特别地,研究团队考虑了这样一个问题:在拥有少量标注数据的情况下,如何选择未标注的数据进行伪标注,从而让伪标注数据和少量真实标注的数据可以为一起多示例上下文学习提供高质量的例子。
与此同时,在本次研究之中,研究团队还解决了以下两个问题:
第一个是关于模型稳定性的问题。最初研究团队的设想非常理想化:希望只用一些未标注的数据(只提供问题),再加上一小部分标注数据,直接作为多示例输入给大语言模型进行学习。这样的方法从资源角度看是最节省的,他们也觉得这才是“最纯粹”的方式。但是,实验做下来却发现效果非常不稳定,有时候能提升,有时候反而拖后腿。为此,沈聪和学生们试了很策略但都无法根本解决这个问题。后来,他们做了一个艰难的决定——“退而求其次”转向使用伪标注的方式来辅助选样。虽然不如原先设想得那么“优雅”,但是确实让模型的性能提升变得更加可控、更加稳定。“这也让我的学生们第一次意识到,为了解决实际的问题,理想化的思路和实际限制之间经常要做权衡和取舍。”沈聪表示。
第二个是研究团队找到最终选样方法的灵感来源。其实他们一直在寻找一个既高效又有效的方法来从未标注数据中选出“关键样本”。有一次在组内讨论时,突然有学生聊到他之前曾推导过一些图结构中影响力相关的理论,但因为当时项目方向不同,这一部分一直没用上。研究团队研究了他的推导记录,发现这些思想其实可以完美应用在这一问题中——只要做一些针对性的调整。于是学生们修改推导、搭建实验,没想到真的跑出来了不错的结果。
这两个经历一个是现实妥协下的选择,一个是偶然中的“灵光一闪”,但它们都让沈聪的学生们对于科研有了更多敬畏和更多热爱。
最终,相关论文以《MAPLE:多轮自适应伪标记上下文学习》(MAPLE:Many-Shot Adaptive Pseudo-Labeling In-Context Learning)为题发在第 42 届国际机器学习大会(ICML,International Conference on Machine Learning)上 [1]。
图 | 相关论文(来源:ICML)后续:
第一,研究团队希望进一步提升伪标签的质量和鲁棒性。虽然现在的方法已经能选出对于模型推理有帮助的未标注样本并进行伪标注,但仍然存在一些误标或不稳定的情况。特别是他们观察到在一些任务上使用更多伪标注的数据会导致性能的下降,其认为这可能是伪标注的标签引入的噪声所导致的。接下来他们会探索是否可以引入不确定性估计、集成模型,或者借助大语言模型自身的反馈机制,来判断哪些伪标签更可信,从而提升整体效果。
第二,研究团队想把这套机制拓展到跨任务或跨领域的场景中。现实中很多任务来自不同的数据分布,比如金融、医疗、教育等,如能使用一个任务中少量的标注,配合另一个任务的未标注数据,仍然能够实现有效的多示例学习,就会极大提升大语言模型的实际适应能力,而这也涉及到如何在任务之间迁移影响力建图策略和示例选择策略。
参考资料:
1.https://arxiv.org/abs/2505.16225