在上海张江科学城的实验室里,科学家正见证一场生命极限的突破——90摄氏度的密闭罐里,酶正在快速“瓦解”塑料。这款耐高温的塑料降解酶,是上海交通大学洪亮教授团队用AI设计改造的“新品”蛋白质。
当传统生物学家还在实验室用移液枪逐个测试蛋白质功能、组装“理想型”蛋白质时,洪亮团队的AI大模型“启明星”已构建出亿级蛋白质的“功能图谱”,能够精准、高效地设计出耐热、耐碱、耐酸等“超能”蛋白质,满足“定制”蛋白质的需求。
蛋白质是生命活动的物质基础,自然界中参与构成蛋白质的氨基酸有20种,一个蛋白质分子通常由几十个至上千个数量不等的氨基酸按照特定顺序排列而成。排序的细微差别,可能让蛋白质表现出截然不同的功能特性,比如稳定性、活性、亲和力等。过去数十年间,生物学家只能依靠实验方法来测定蛋白质的结构,揭示复杂的蛋白质结构会耗费生物学家大量时间。2018年,谷歌DeepMind团队发布了AI大模型AlphaFold,它能精准地解析蛋白质的三维构造,为科研人员更高效、更精准地进行药物开发、疫苗设计奠定基础。
“使用AI设计蛋白质时,我们就在思考,设计的目的是满足某些功能需求,为何不训练AI模型,把满足功能需求的蛋白质直接设计出来?”洪亮团队决定训练一个与AlphaFold不同的AI大模型,挑战蛋白质功能设计的难关。
“我们利用AI技术学习不同自然环境下,各种生物体内蛋白质链条中氨基酸的排列规则。更重要的是,我们从温度、酸碱度、压强这3个维度,为5亿个蛋白质打上功能标签,然后把这海量的功能标签‘投喂’给AI大模型,使之能快速、精准地设计出耐热、耐酸、耐碱的‘皮实’蛋白产品。”洪亮说。
如果把一个蛋白质看作一块模具,那么整个数据集就是装满90亿块模具的超级工具箱,这是迄今为止全球最大的蛋白质数据集。由36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列等组成的蛋白质数据集中,蕴藏着从地表到极地冰川、深海沟壑的“适者生存法则”。
“比如这款耐热的塑料降解酶,我们先从‘启明星’中挑出几个具备耐热功能的蛋白质‘模具’,再使用AI技术修饰改造这些蛋白质‘模具’的氨基酸序列,提高它的耐热性,同步进行实验验证,从而避免了过去的高通量筛选,提升了蛋白质设计与改造的效率。”洪亮说。
在上海交通大学张江校区的自动化实验室里,机械臂正飞快地验证着AI设计的蛋白质。这里每天产生的实验数据,又会回流到AI系统中持续优化蛋白质模具,形成“数据—模型—实验”的增强循环,洪亮形象地称之为“蛋白质的自动驾驶模式”。“我们的目的就是让设计AI化、实验自动化,把复杂的蛋白质科学变成简单的工程过程。”洪亮说。
截至目前,已有8个产业项目使用“启明星”大模型设计蛋白质,成功率达70%。这种突破正在改写产业规则:某生物医药企业利用“启明星”设计的极度耐碱的蛋白质,使用寿命提高一倍多,每年可为企业节省上千万元的成本。
谈及未来图景,洪亮这样描绘:生物学家只需在电脑上输入需求,AI就能自动生成候选蛋白质“模具”,自动化平台完成验证优化。这不仅能够将科研人员从重复实验中解放,更可能催生“定制化合成生物”的全新产业形态。
由中国科研团队建立的蛋白质大模型及部分数据集已于日前发布,并在软件托管平台GitHub上开源,供全世界的科研机构接入。
站在合成生物产业的新赛道,洪亮说,当AI开始理解生命的“设计逻辑”,我们或许正在见证新的产业革命——在这个蛋白质可以被精准“编程”的时代,从医药研发到环境保护,生命科学将向前迈出更大的步伐。
本报记者 黄晓慧
《人民日报》(2025年05月17日 第 06 版)
编辑:李军;
原标题:用AI设计蛋白质 满足“定制”需求(探一线) 来源:人民日报