人工智能在帮助医生诊断患者和个性化治疗方案方面显示出巨大潜力。然而,由麻省理工学院领导的国际科学家团队警告称,目前设计的AI系统存在将医生引入错误方向的风险,因为它们可能会过于自信地做出错误决定。
研究人员表示,防止这些错误的一种方法是将AI系统编程得更加"谦逊"。这样的系统会在对诊断或建议缺乏信心时主动表明,并在诊断不确定时鼓励用户收集更多信息。
"我们现在把AI当作神谕使用,但我们可以把AI当作教练。我们可以把AI当作真正的副驾驶。这不仅会增强我们检索信息的能力,还会增强我们连接各种信息点的能力,"MIT医学工程与科学研究所高级研究科学家、Beth IsraelDeaconess医疗中心医生、哈佛医学院副教授Leo Anthony Celi说。
Celi和他的同事创建了一个框架,他们说这可以指导AI开发者设计显示好奇心和谦逊的系统。研究人员表示,这种新方法可以让医生和AI系统作为合作伙伴工作,并帮助防止AI对医生决策产生过大影响。
Celi是这项研究的资深作者,该研究今天发表在《BMJ健康与护理信息学》上。论文的主要作者是Sebastián Andrés Cajas Ordonez,他是MIT Critical Data的研究员,这是一个由MIT医学工程与科学研究所计算生理学实验室领导的全球联盟。
融入人类价值观
据MIT团队称,过度自信的AI系统可能在医疗环境中导致错误。先前的研究发现,ICU医生会依赖他们认为可靠的AI系统,即使他们自己的直觉与AI建议相反。当AI建议被认为具有权威性时,医生和患者都更容易接受错误的AI建议。
研究人员表示,医疗机构应该使用与临床医生更协作的AI系统,而不是提供过度自信但可能错误建议的系统。
"我们正在努力将人类纳入这些人机AI系统中,这样我们就能促进人类集体反思和重新想象,而不是让孤立的智能体做所有事情。我们希望人类通过使用AI变得更有创造力,"Cajas Ordonez说。
为了创建这样的系统,该联盟设计了一个框架,包括几个可以集成到现有AI系统中的计算模块。其中第一个模块要求AI模型在做出诊断预测时评估自己的确定性。由联盟成员、墨尔本大学的Janan Arslan和Kurt Benke开发的认识论美德评分充当自我意识检查,确保系统的信心被每个临床场景的固有不确定性和复杂性适当调节。
有了这种自我意识,模型就可以根据情况调整其反应。如果系统检测到其信心超过了可用证据支持的水平,它可以暂停并标记这种不匹配,请求能够解决不确定性的特定检查或病史,或建议专科会诊。目标是让AI不仅提供答案,还要在这些答案应该谨慎对待时发出信号。
"这就像有一个副驾驶会告诉你,你需要寻求新的眼光来更好地理解这个复杂的患者,"Celi说。
Celi和他的同事此前已经开发了可用于训练AI系统的大规模数据库,包括来自Beth Israel Deaconess医疗中心的重症监护医疗信息市场(MIMIC)数据库。他的团队现在正在将新框架实施到基于MIMIC的AI系统中,并将其介绍给Beth Israel Lahey健康系统的临床医生。
研究人员表示,这种方法也可以在用于分析X光图像或确定急诊室患者最佳治疗方案的AI系统中实施。
迈向更具包容性的AI
这项研究是Celi和他的同事创建AI系统的更大努力的一部分,这些系统由最终将受到这些工具影响最大的人员设计和使用。许多AI模型,如MIMIC,都是在美国公开可用的数据上训练的,这可能导致对某种医疗问题思考方式的偏见,并排除其他观点。
Celi说,引入更多观点对于克服这些潜在偏见至关重要,强调全球联盟的每个成员都为更广泛的集体理解带来了独特的视角。
用于诊断的现有AI系统的另一个问题是,它们通常在电子健康记录上训练,而这些记录最初并不是为此目的而设计的。这意味着数据缺乏在做出诊断和治疗建议时有用的大量背景信息。此外,许多患者由于缺乏访问权限(如生活在农村地区的人)从未被纳入这些数据集。
在MIT Critical Data主办的数据研讨会上,数据科学家、医疗专业人员、社会科学家、患者等群体共同设计新的AI系统。在开始之前,每个人都被提示思考他们使用的数据是否捕获了他们旨在预测的所有驱动因素,确保他们不会无意中将现有的结构性不公平编码到他们的模型中。
"我们让他们质疑数据集。他们对自己的训练数据和验证数据有信心吗?他们认为是否有患者被无意或有意排除,这将如何影响模型本身?"他说。"当然,我们不能停止甚至延迟AI的发展,不仅是在医疗保健领域,在每个行业都是如此。但是,我们必须在如何做这件事上更加深思熟虑和周到。"
这项研究由韩国卫生产业发展研究院通过波士顿-韩国创新研究项目资助。
Q&A
Q1:什么是谦逊的人工智能?它与传统AI有什么不同?
A:谦逊的人工智能是指能够在缺乏信心时主动表明不确定性的AI系统。与传统过度自信的AI不同,谦逊AI会在诊断不确定时鼓励用户收集更多信息,避免误导医生做出错误决定。
Q2:认识论美德评分是什么?它如何帮助AI变得更谦逊?
A:认识论美德评分是由墨尔本大学研究人员开发的计算模块,充当AI的自我意识检查。它确保系统的信心被每个临床场景的固有不确定性和复杂性适当调节,让AI在信心超过证据支持水平时能够暂停并标记不匹配。
Q3:为什么现有的医疗AI系统容易产生偏见?
A:现有医疗AI系统容易产生偏见主要有两个原因:一是许多模型在美国公开数据上训练,导致对某种医疗问题思考方式的偏见;二是训练数据基于电子健康记录,缺乏诊断所需的背景信息,且许多患者因缺乏医疗access未被纳入数据集。