研究表明AI可伪装有害蛋白,微软Science发文揭示“零日漏洞”,DNA合成公司紧急升级筛查系统
创始人
2025-10-03 19:45:24
0

近年来,人工智能工具在蛋白质设计领域广泛普及。基于蛋白质序列与结构生成模型的工具,能够在无数组合中挑出最有潜力的变体,极大地提高了蛋白工程的产出效率。

但就像在其他领域一样,人工智能在生物科学领域的应用也是一柄双刃剑。它既可以帮科学家设计新的蛋白质结构,也可以被用来开发有毒蛋白质。

近日,微软和多家公司、高校、研究机构组成的联合团队在生物科学领域发现了一个重大的“零日漏洞”。他们利用开源的人工智能蛋白质设计工具,基于 72 种已知危险蛋白,模拟生成了 7 万多种原始有害蛋白质的变体,并将它们放入 4 种现有的生物安全筛查系统中。

(来源:论文)

结果显示,筛选系统会漏掉大量重新设计的有毒蛋白质变体(约 30%-70%),而这些系统是许多 DNA 合成公司目前正在使用的。

这意味着,面对人工智能的进步,生物技术领域的安全保障措施存在巨大漏洞。网络生物安全,已然成为一个亟待解决的挑战。

针对这个“零日漏洞”,研究团队已经开发出了“补丁”,多家 DNA 合成公司已经应用到了自家的筛查系统中,将漏筛率降低到了平均 3% 的水平。

这项成果以论文的形式发表在《科学》杂志上。联合团队的成员来自微软、国际生物防护和生物安全科学倡议、Twist Bioscience 公司、Integrated DNA Technologies 公司、Aclid 公司和英国伯明翰大学。

微软首席科学官兼项目负责人埃里克·霍维茨(Eric Horvitz)介绍称,该项目有两个探索目标:一是“最新的人工智能蛋白质设计工具是否可以用来重新设计有毒蛋白质,以保留其结构和潜在的功能,同时逃避当前筛选工具的检测”;二是“我们能否设计出方法并进行系统研究,使我们能够与利益相关者快速、安静地合作,更新或修补这些筛选工具,使其更能抵御人工智能的攻击。”

在探索过程中,研究团队采取了一种红队演练的对抗性试验策略。这个概念来自网络安全领域。研究团队扮演了“攻击者”的角色,主动寻找并利用现有系统的弱点,其最终目的是在这些弱点被真正的恶意行为者利用之前,先行一步进行修复。

图 | 红队演练的流程(来源:论文)

以 AlphaFold2 等工具为例,人工智能早已在生命科学领域发展壮大了。通过学习数百万种已知蛋白质的序列、结构和功能数据,人工智能辅助蛋白质设计模型能够设计出自然界中从未存在过的全新蛋白质。

往好了看,科学家可以用它们设计出精准靶向癌细胞的抗体药物,或者能够中和病毒的治疗性蛋白,还有高效催化化学反应的酶,用于生产可持续的生物燃料和材料。

但这些工具有很多都是开源的,放到别有用心的人手里,同样可能被用于增强病原体的毒性或设计全新的生物毒素。

由此引发的核心威胁并不是复制已知的病毒,现有的生物安全筛查系统对已知威胁已有较好的防御能力。真正的威胁在于,人工智能能够非常高效地对有害蛋白质进行修改。

人工智能可以在保持蛋白质关键三维结构(决定其生物学功能)基本不变的前提下,改变其底层的氨基酸序列(由 DNA 序列编码)。其结果是产生一种功能上与原始毒素类似,但在基因序列上却截然不同的新型分子。

设计完成后,在将数字化的蛋白质设计转化为现实世界的生物实体的过程中,还需要进行 DNA 合成。许多定制化 DNA 合成服务的公司,如 Twist Bioscience,都会通过生物安全筛查系统检查 DNA 合成订单是否有安全风险。

图 | Twist Bioscience 官网(来源:Twist Bioscience)

传统生物安全筛查系统都会将新 DNA 与已知危险序列进行比对。而那些人工智能生成的、经过伪装的序列,很可能绕过它们,构成一个巨大的安全隐患。

为了证明这一点,研究团队选择了很容易获得的开源工具进行设计。同时,为了确保研究过程的绝对安全,所有实验均在计算模拟环境中完成,没有合成任何真正的 DNA 或蛋白质。

他们选取了 72 种已知的受关注蛋白质(Proteins of Concern, POCs),这些蛋白质具有潜在的危害性,而且比较知名,包括蓖麻毒素和肉毒杆菌神经毒素等等。

随后他们利用三种开源的蛋白质序列生成模型,ProteinMPNN、EvoDiff-MSA 和 EvoDiff-Seq,对这 72 种目标蛋白质进行改造。

人工智能模型的任务是对这些蛋白质的 DNA 编码进行“人工智能重表述(AI reformulation)”,算法不会简单地复制原始序列,而是在保持潜在折叠与功能特征的同时,最大程度地改变其氨基酸序列,生成与已知序列低相似度但高结构相似性的合成同源物。

模型总共生成了 76,080 个合成同源物,用于检验 4 个现有的生物安全筛查系统。

论文没有透露具体的系统名称,我们只知道它们来自于四家不同的生物安全筛查软件提供商。这些工具采用的方法包括正则匹配、隐马尔可夫模型、基于神经网络增强的比对方法等等,但底层框架都是最佳匹配原则。

由于没有进行实体实验,团队使用了 OpenFold(一种结构预测工具)来计算两个关键的计算模拟指标:TM-Score(评估变体与原始蛋白质的结构相似度)和 ApLDDT(评估结构预测的置信度)。这两个指标被用作一个“带噪音的代理指标”,以评估人工智能生成的变体保留其原始有害功能的可能性。

结果显示,大量具有高结构相似度(即高 TM-Score 和高 ApLDDT)的变体成功通过检测。论文没有给出具体比例数据,只能通过图片数据计算得出大概的比例,4 个系统约在 30%-70% 之间。

图 | 部分工具“打补丁前”和“打补丁后”的表现(来源:论文)

尽管这些仅存在于数字世界的序列是否具有致病性尚未可知,但它们在结构上与原始毒素的高度相似性,意味着它们很可能保留了有害功能,足以称得上是严重的生物安全漏洞。

识别出漏洞后,研究团队开始与多个行业伙伴合作,开发并部署了软件补丁和新的筛查策略,以提升对有害蛋白质序列的识别准确率。

微软表示,这个过程持续了 10 个月,是一个迅速的、保密的、跨部门的合作。行动模式几乎复刻了软件领域零日漏洞的紧急响应流程。

经过升级后,筛查系统的检测率得到了显著提升。4 个系统的平均漏报率约为 3%,其中一个工具的漏报率甚至降低到了 1%。

“然而没有一个工具能检测出所有(模拟得到的)高危变种。”论文写道。

研究团队深入分析了漏网之鱼。他们发现部分漏报因为人工智能生成的序列与某些无害的天然蛋白质序列更为相似。根据最佳匹配原则,筛查系统会将其判定为安全。

此外,有的漏报源于专家们对其本身是否应被划分为“有毒/存在威胁”存在分歧,因为它只是一个毒素的辅助成分。还有一些漏报是因为筛查系统的训练参数对特定蛋白质效果不佳。

这几个问题凸显了筛查系统的底层逻辑亟待更新。为了应对日益强大的人工智能,它需要变得可定制,科学家也应当制定更清晰的威胁分级系统。

在该研究中,微软团队与 Twist Bioscience 公司进行了深入合作。

Twist Bioscience 由艾米丽·莱普鲁斯特(Emily Leproust)、比尔·班亚伊(Bill Banyai)和比尔·佩克(Bill Peck)于 2013 年共同创立,是一家合成生物学公司,主营业务包括合成和定制 DNA。

据该公司介绍,它开发了一种基于高通量半导体的 DNA 合成平台,可以将化学反应微缩最高百万分之一,从而实现大规模并行化。在一块传统 96 孔板上只能合成一个基因,而 Twist 的硅基芯片可以同时合成 9,600 个基因。

该公司还表示,其 DNA 合成错误率极低,可达 1:7500(即平均每 7500 个碱基才可能出现一个错误),明显优于传统的化学方法(通常在 1:200 到 1:500 左右)。

Twist Bioscience 首席执行官兼联合创始人艾米丽·莱普鲁斯特是高通量 DNA 合成与测序领域的早期先驱。她在创立 Twist Bioscience 之前,已在安捷伦科技(Agilent Technologies)领导开发了多项关键技术,拥有有机化学博士学位、数十项专利和众多同行评议的出版物。

(来源:领英)

不过,安捷伦科技在 2016 年起诉了 Twist Bioscience,指控艾米丽“在创办定制 DNA 产品和服务提供商时窃取了商业机密”。双方在 2020 年达成和解,Twist Bioscience 支付了 2250 万美元和解费。

目前还有一起针对艾米丽和 Twist Bioscience 的集体诉讼正处于调查阶段。原告声称,Twist Bioscience 高管团队“谎报了公司的创新专有技术能以更高质量和更低成本生产合成 DNA”。

话说回来,这篇有微软参与的论文目前已经通过了同行评审,Twist Bioscience 在其中的贡献是值得肯定的。

这项研究凸显了网络生物安全研究的必要性。此前,网络生物安全更多停留在学术层面,而该研究通过借鉴网络安全领域的红队演练、零日漏洞,将其推进到了一个可被验证和复制的实践层面。

更难能可贵的是,研究人员还找到了解决办法,将现有筛查工具背后的巨大漏洞缩小成了小孔。

但正如前文提到的,没有任何筛查工具是完美的。以目前人工智能技术的发展速度,它们在未来很长一段时间内,都将面临艰巨的挑战。

参考资料:

https://news.microsoft.com/signal/articles/researchers-find-and-help-fix-a-hidden-biosecurity-threat/

https://www.science.org/doi/10.1126/science.adu8578

https://www.twistbioscience.com/

https://bioengineer.org/enhancing-biosecurity-measures-for-genes-associated-with-high-risk-proteins/

运营/排版:何晨龙

相关内容

热门资讯

原创 日... 日本媒体,素来对朝鲜的动向非常敏感。 毕竟,由于国土面积太小,朝鲜弹道导弹几乎全是高仰角试射,落点都...
经典影视IP闯入微短剧世界,是... 据统计,2024年微短剧市场规模已达505亿元,同比增长35.1%,全国用户规模达5.76亿,占整体...
追剧预警!这种“邮票”不是文创... 最近追《不眠日》的小伙伴们是不是生怕错过最新剧情更新?最新剧情里,丁奇第二次进入循环时遇到的那个神秘...
是时候穿风衣了!今年秋天穿“大... 刚结束的四城春夏时装周,风衣再次成为秀场的主角。模特们身上的风衣肩线更宽阔、廓形更松弛,不约而同地把...
8000元起家,重庆2800亿... 又有A股企业向港交所发起了IPO冲击。 9月25日,赛力斯集团(下文亦称“赛力斯”)发布公告称,公司...