提升AI模型解释预测能力的新方法
创始人
2026-03-09 17:48:00

在医疗诊断等高风险场景中,用户往往希望了解计算机视觉模型做出特定预测的原因,以便判断是否信任其输出结果。

概念瓶颈建模是一种能够让人工智能系统解释其决策过程的方法。这些方法强制深度学习模型使用一组人类可以理解的概念来进行预测。在最新研究中,MIT计算机科学家开发了一种方法,可以引导模型获得更好的准确性和更清晰、更简洁的解释。

模型使用的概念通常由人类专家预先定义。例如,临床医生可能建议使用"聚集的棕色斑点"和"不规则色素沉着"等概念来预测医学图像显示黑色素瘤。

但是,预先定义的概念可能与特定任务无关或缺乏足够的细节,从而降低模型的准确性。新方法提取模型在训练执行特定任务时已经学到的概念,并强制模型使用这些概念,从而产生比标准概念瓶颈模型更好的解释。

该方法利用一对专门的机器学习模型,自动从目标模型中提取知识并将其转换为通俗语言概念。最终,他们的技术可以将任何预训练的计算机视觉模型转换为能够使用概念来解释其推理的模型。

"从某种意义上说,我们希望能够读懂这些计算机视觉模型的想法。概念瓶颈模型是用户了解模型在思考什么以及为什么做出某种预测的一种方式。因为我们的方法使用了更好的概念,它可以带来更高的准确性,最终改善黑盒AI模型的可问责性,"主要作者、米兰理工大学研究生Antonio De Santis说,他是在MIT计算机科学与人工智能实验室(CSAIL)担任访问研究生期间完成这项研究的。

与他合作完成这项工作的还有Schrasing Tong、米兰理工大学计算机科学与工程教授Marco Brambilla,以及CSAIL首席研究科学家Lalana Kagal。该研究将在国际学习表征会议上展示。

构建更好的瓶颈

概念瓶颈模型(CBM)是改善AI可解释性的流行方法。这些技术通过强制计算机视觉模型预测图像中存在的概念,然后使用这些概念进行最终预测,增加了一个中间步骤。

这个中间步骤或"瓶颈"帮助用户理解模型的推理。

例如,识别鸟类的模型可能会选择"黄色腿部"和"蓝色翅膀"等概念,然后预测为燕子。

但是,由于这些概念通常由人类或大语言模型预先生成,它们可能不适合特定任务。此外,即使给定一组预定义的概念,模型有时仍会利用不良的学习信息,这就是所谓的信息泄漏问题。

"这些模型被训练为最大化性能,所以模型可能秘密使用我们不知道的概念,"De Santis解释说。

MIT研究人员有了不同的想法:由于模型已经在大量数据上进行了训练,它可能已经学会了为手头的特定任务生成准确预测所需的概念。他们试图通过提取这些现有知识并将其转换为人类可以理解的文本来构建CBM。

在他们方法的第一步中,一个称为稀疏自编码器的专门深度学习模型有选择地提取模型学到的最相关特征,并将其重构为少数几个概念。然后,多模态大语言模型用通俗语言描述每个概念。

这个多模态大语言模型还通过识别每个图像中存在和不存在的概念来注释数据集中的图像。研究人员使用这个注释数据集来训练概念瓶颈模块识别概念。

他们将此模块整合到目标模型中,强制其仅使用研究人员提取的学习概念集进行预测。

控制概念

在开发这种方法时,他们克服了许多挑战,从确保大语言模型正确注释概念到确定稀疏自编码器是否识别了人类可理解的概念。

为了防止模型使用未知或不需要的概念,他们限制模型每次预测只使用五个概念。这也迫使模型选择最相关的概念,并使解释更容易理解。

当他们将自己的方法与最先进的CBM在预测鸟类种类和识别医学图像中皮肤病变等任务上进行比较时,他们的方法在提供更精确解释的同时实现了最高的准确性。

他们的方法还生成了更适用于数据集中图像的概念。

"我们已经证明,从原始模型中提取概念可以超越其他CBM,但在可解释性和准确性之间仍然存在需要解决的权衡。不可解释的黑盒模型仍然优于我们的模型,"De Santis说。

未来,研究人员希望研究信息泄漏问题的潜在解决方案,也许通过添加额外的概念瓶颈模块来防止不需要的概念泄漏。他们还计划通过使用更大的多模态大语言模型来注释更大的训练数据集来扩展他们的方法,这可能会提升性能。

"我对这项工作感到兴奋,因为它将可解释的AI推向了一个非常有前途的方向,并为符号AI和知识图谱创建了自然桥梁,"维尔茨堡大学数据科学主席教授Andreas Hotho说,他没有参与这项工作。"通过从模型自己的内部机制而不仅仅从人类定义的概念中推导概念瓶颈,它提供了一条通向对模型更忠实解释的道路,并为结构化知识的后续工作开辟了许多机会。"

这项研究得到了Progetto Rocca博士奖学金、意大利大学和研究部在国家复苏和韧性计划下的支持、泰雷兹阿莱尼亚航天公司以及欧盟NextGenerationEU项目的资助。

Q&A

Q1:什么是概念瓶颈建模?它有什么作用?

A:概念瓶颈建模是一种能够让人工智能系统解释其决策过程的方法。这些方法强制深度学习模型使用一组人类可以理解的概念来进行预测,增加一个中间步骤或"瓶颈"来帮助用户理解模型的推理过程。

Q2:MIT研究人员的新方法与传统方法有什么不同?

A:传统方法使用人类专家或大语言模型预先定义的概念,可能不适合特定任务。MIT研究人员的新方法是从模型训练时已经学到的概念中提取知识,使用稀疏自编码器和多模态大语言模型将这些概念转换为人类可理解的文本。

Q3:这种新方法在实际应用中表现如何?

A:研究人员将其方法与最先进的概念瓶颈模型在预测鸟类种类和识别医学图像中皮肤病变等任务上进行了比较,结果显示他们的方法在提供更精确解释的同时实现了最高的准确性,生成的概念也更适用于数据集中的图像。

相关内容

热门资讯

佛山市禅城区:推出面向公众的“... 近日,一款名为OpenClaw(因其图标是一只红色龙虾而被昵称为“龙虾”)的开源项目持续出圈。澎湃新...
成功预言“油价冲击100”后 ... .ct_hqimg {margin: 10px 0;} .hqimg_wrapper {text-a...
特朗普试图缓解市场对战争持续时...   美国总统唐纳德・特朗普称伊朗战争将很快结束,油价随之暴跌。这场冲突已扰乱全球能源市场、引发通胀危...
情暖通关路 福州边检站执勤三队... 福州新闻网3月10日讯(记者 宋亦敏 通讯员 何静雯 范海超)黄岐客运码头,船刚靠岸,福州出入境边防...
事情有变?假如柯文哲不用坐牢,... 最近,台湾政坛的风云变幻,最吸引眼球的莫过于柯文哲的动向。随着3月26日一审判决的临近,柯文哲是否能...