来源:钛媒体
图片由AI生成AI正在与医生正面交锋,让医生是绝对权威的时代成为过去式。现在,患者在看病之前,会先用AI大模型问一遍,再到医院与医生讨论病情。
“不管医生喜欢不喜欢,我们都要面临这样的问题,很多病人是问了DeepSeek或者ChatGPT之后,再来医院看病。”北京大学医学部皮肤与性病学系主任,北京大学人民医院皮肤科副主任、主任医师、博士生导师李厚敏对作者表示。
尤其是她发现,在一线城市,甚至有生活在国外而回国看病的患者,他们还了解各国的诊疗指南,并以此与医生探讨问题。
而随着垂类大模型正在医学领域展现巨大潜力,医疗大模型临床辅助实用性得到进一步的提高。
今年5月,OpenAI发布了全新的开源模型HealthBench。这是一项衡量AI模型在医疗领域新的基准测试,由来自60个国家的262位医生合作打造。HealthBench内置了5000段真实的健康对话,每段对话都配有医生创建的自定义评分标准。而GPT-4.1在评分模型的7个主题中,有5个主题的表现超过了医生平均水平。
7月,微软最新发布的突破性医疗AI系统MAI-DxO。研究人员收集了《新英格兰医学杂志》发布的真实疑难病例,在304例病例测试中,MAI-DxO诊断系统的AI诊断准确率达85.5%,远超人类医生20%左右的准确率,而MAI-DxO成本更低、效率更高。
国产大模型在这一领域也有相关进展披露。7月23日,夸克方面宣布,夸克健康大模型成功通过中国12门核心学科的主任医师笔试评测。目前,“主任级AI医生”能力已全面集成至夸克的AI搜索中,用户在查询健康问题时,选择深度搜索即可调用。
夸克健康大模型以通义千问为基础,面向垂直场景的做了深度工程化的工作。夸克健康算法负责人徐健向作者介绍,夸克健康大模型的核心突破之一,是构建出“慢思考”能力。
该能力融合了链式推理与多阶段临床演绎路径建模,驱动模型在面对复杂医疗问题时,能够分阶段、层层深入地推导出最终回答。
这背后是基于夸克构建的“双数据产线+双奖励机制”的工程体系。一方面,模型将医学数据划分为“可验证”和“不可验证”两类,分别对应诊断类任务和健康建议类任务;另一方面,在训练方法上引入“过程奖励模型”和“结果奖励模型”,分别评估模型推理链的合理性与最终结论的准确性,提升模型的临床可解释性和推理一致性。
据徐健介绍,健康大模型在诊疗上的效果,门诊常见病场景下,模型诊断准确率达90.78%,与人类医生书写的病历准确率水平相当。
事实上,在健康领域,模型可靠性至关重要,一个错误的答案的破坏性,可以抵消掉数个正确答案为AI带来的优势。
医疗垂直模型需要专业医师团队的深度参与。OpenAI联动了多国医生联合打造医疗模型,而夸克健康大模型背后也有千人规模的专业医师标注团队,其中,超过400名为副主任医师及以上的高资历医疗专家。
不过,很多医生对于医疗大模型秉持的是审慎接受的态度。
李厚敏认为,诊疗指南或者AI给出的答案通常都很泛,针对个体具体的病症的诊疗,还是需要专业人士给出建议。而且,面对同一个AI解答,学医与没有学医的人,是无法达到同等级水平来理解具体的病症,这是为什么当前AI还不能替代医生底层逻辑之一。
“患者可以通过AI收获对疾病基础知识的认知,比如说,皮肤的问题可能与作息、睡眠有关,也可能是压力与焦虑导致。AI可以让他们更好地理解病情,这二者之间不矛盾。”李厚敏说。
事实上,不只是患者使用AI问诊,医生群体的成长路径,正或多或少由AI来辅助塑造。
据夸克健康运营负责人赵存忠透露,当前使用夸克健康的医学生群体月活跃用户已经超过了200万,占总体医学生50%以上。他们分析后发现,周内学习、期末考试时间的上半周,医学生使用AI的频率最高。医学生的三大核心诉求是解题、查解析、术语解释和教材知识点。
后续,专业搜索也将逐步延伸到低年资医生等垂直人群,AI可以满足临床的知识查询和处理决策、用药需求,也包括高年资医生的科研、学术搜索的工作。
AI的另一个重要作用体现在辅助精神疾病的治疗上,因为这类疾病具有一定的隐蔽性。
武汉大学精神卫生中心主任、教授、主任医师、博士生导师王惠玲认为,抑郁症看不见、摸不着,但确实会影响人们的生活。现在大家对精神疾病和心理问题,往往有一种“病耻感”。
王惠玲分享了一个病例。她有一位严重抑郁症患者,该患者为了迎合外界期望(其老师曾建议他不要一脸“苦相”),通过刻意练习展现出标准化、极具迷惑性的“阳光笑容”,甚至骗过了专业医生。但他内心痛苦始终真实存在,伴随失眠等症状,影响日常生活。
在这个病例中,AI则可以通过分析面部表情(如瞳孔变化)、语音语调和动作姿态等细微生物标记,客观识别“假笑”,辅助诊断抑郁症,避免被表象误导。
实际上,当AI朝着“高情商”进化的时候,它能解决的不仅是专业知识的问题,还能在日常生活中,给予人类情感支持。
万事不决问AI,生活中的烦恼事,AI也会提供解决方案。而当AI产品越来越模糊年龄边界,借助AI玩具拓展至幼儿等更低龄阶段的时候,这又会对人类的认知和行为模式产生什么影响?
王惠玲对作者表示,这正是目前国内专家正在思考和研究的问题。现在的确有很多年轻人通过与AI沟通的方式倾诉烦恼。至于到底会产生什么影响,还有待足够的样本数据观察。
她认为,有渠道总比没有渠道要好。这类陪伴式AI,解决当前一个现实问题是,在心理临床诊疗中,人力资源不足的问题。现在的医疗机构会采用辅助心理治疗的机器人,虽然这类工具还不太完善,但至少可以减少专业医生的部分工作量,以节省医疗资源。
现阶段,一个较好的场景是学生群体心理问题治疗。她的同事正在做的事情是,在学生喜欢的“AI树洞”里发现那些有潜在自杀倾向的高危人群,提前做好相关干预工作,减少不良事件的发生。
不过,她也提醒,与AI沟通的前提是,要关注AI的质量,以及,构建它背后的数据库,因为不排除有的社区本身是充满负能量的,则会造成更坏的影响。AI心理治疗效果,取决于用户选择用什么AI。
心智成熟的人可以选择自认为合适的方式缓解压力。而对更低龄的儿童来说,依赖电子产品已经是一种趋势。而这种情况究竟会对人类产生什么影响,还需要更系统的观察。
王惠玲举例说,这类问题有点像是早教,家长们往往倾向于让小朋友更早的识字、写字,但最近有学者研究后发现,过早学习写字并不利于左右脑的发育,早教可以让小朋友听、学语言,唱歌,但学习写字可能会对大脑发育产生一定的负面影响。
“过早地使用电子产品,或者使用AI治疗工具,是研究过程中一个有关伦理方面的考量,专业医学上需要更多的数据和资料才能有答案。”王惠玲说。(本文首发于钛媒体APP,作者|李程程,编辑|李玉鹏)
特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。