参考消息网2月6日报道美国《大西洋月刊》网站近日刊登题为《虚拟细胞是科学的“圣杯”》的文章,内容编译如下:
研究人类细胞是一件痛苦的事情。人体内有数十万亿个细胞,形成一个庞大而复杂的网络,这个网络控制着每一种疾病和代谢过程。
加快细胞研究可以让人类收获良多——新的药物和疫苗、癌症治疗方法,甚至只是更深入了解影响我们生活的种种基本过程。这方面的研究已经开始进行了。科学家们现在正在设计计算机程序,这些程序可能解锁模拟人类细胞的能力,让研究人员能够预测药物、突变、病毒或身体中任何其他变化的影响,从而使有形的实验更有针对性,更有可能成功。美国卡内基梅隆大学计算机科学家、阿联酋穆罕默德·本·扎耶德人工智能大学校长邢波说,受ChatGPT等大型语言模型的启发,人们希望生成式人工智能(AI)能够“解码生物学语言,然后用生物学语言来表达”。
就像聊天机器人可以从大量书面语言中解析风格、甚至含义,然后据此构建类似人类的散文一样,理论上也可以用海量生物数据来对人工智能进行训练,以提取有关细胞、甚至整个生物体的关键信息。这将使研究人员可以创建体内众多细胞的虚拟模型,并根据这些模型做些什么。美国斯坦福大学细胞生物学家埃玛·伦德伯格说:“这是生物学的圣杯,人们梦寐以求了很多很多年。”
这些宏大的说法——关于生成式人工智能这种模糊而有争议的技术——听起来可能与一众科技公司高管的预言非常相似:开放人工智能研究中心(OpenAI)的萨姆·奥尔特曼、谷歌旗下“深层思维”公司的德米斯·哈萨比斯和Anthropic公司的达里奥·阿莫代伊都宣称自己的人工智能产品将很快彻底改变医学。
不过,如果生成式人工智能真的实现了这些愿景,那么结果可能看起来就像是虚拟细胞这样的东西,而虚拟细胞是邢波、伦德伯格和其他人一直在为之努力的。(上个月,他们在《细胞》双月刊上发表了一篇关于这个主题的观点文章。邢波则将这个想法更推进了一步,与他人合作撰写了几篇论文,探讨这种虚拟细胞能否组合成一个“人工智能驱动的数字生物体”——对一整个人的模拟。)即使在非常早期的阶段——这种方法如果被证明可行,可能需要10年或100年才能完全实现——这也证明了这项技术的终极好处可能不是来自聊天机器人,而是来自一些更雄心勃勃的东西。
创建虚拟细胞的努力并非始于大语言模型的出现。最早的现代尝试可以追溯到20世纪90年代,当时是涉及编写方程式和代码,以描述每个分子和相互作用。这种方法取得了一些成功,第一个全细胞模型(是一种细菌的全细胞模型)最终于2012年发布。但这种方法不适用于更复杂的人类细胞——伦德伯格说,科学家们缺乏足够深入的理解来设想或写出所有必要的方程式。
问题不在于没有任何相关信息。在过去的20年里,新技术已经产生了大量与人类细胞相关的基因序列和显微镜数据。问题是,这个语料库太庞大、太复杂,没有人能完全理解它。但生成式人工智能或许可以做到,它是在人类指令极少的情况下从海量数据中提取信息的。以色列魏茨曼科学研究所计算生物学家、邢波的合作者埃兰·塞加尔说,在人工智能应用于生物学方面,“我们正处于转折点。时机成熟了,我们具备了所有不同的组成部分:数据、计算机、模型”。
卡内基梅隆大学计算生物学家、赛诺菲集团研发和计算科学主管齐夫·巴尔-约瑟夫说:“该领域的重大转折点出现在2018年。”2018年——在生成式人工智能热潮之前,谷歌旗下“深层思维”公司发布了“阿尔法折叠”程序。这是一种人工智能算法,从功能上“解决”了分子生物学中一个长期存在的问题:如何从组成蛋白质的氨基酸序列中解析蛋白质的三维结构。过去,针对单个蛋白质完成这项任务需要一个人进行多年的实验。但在2022年,也就是“阿尔法折叠”首次发布仅4年后,它就预测了2亿种蛋白质的结构,几乎涵盖了科学界已知的所有蛋白质。该程序已经在推动药物发现和基础生物学研究,这使它的创建者在去年秋季赢得了诺贝尔奖。
该程序的成功启发了研究人员为生物学中的其他构成要素——如脱氧核糖核酸(DNA)和核糖核酸(RNA)——设计所谓的基础模型。受聊天机器人预测句子中下一个单词的启发,许多基础模型经过训练,可以预测一个生物序列中接下来会出现什么,例如一个蛋白质中的下一个氨基酸。不过,生成式人工智能的价值不限于直接预测。聊天机器人在分析文本时,会根据单词之间的关系构建语言的抽象数学结构。它们在这些结构中分配单词和句子坐标,这就是“嵌入”。在一个著名的例子中,嵌入“女王”与嵌入“国王”之间的距离同嵌入“女人”与嵌入“男人”之间的距离相同,这表明该程序生成了一些关于性别角色和王室的内在概念。数学、逻辑推理和说服的基本能力(尽管有缺陷)似乎都来自这种对单词的预测。
许多人工智能研究人员认为,这些嵌入所反映的基本理解是聊天机器人能够有效地预测句子中的单词的原因。同样的概念在生物基础模型中也可能是有用的。例如,为了准确预测一个核苷酸序列或一个氨基酸序列,算法可能需要生成关于这些核苷酸或氨基酸如何相互作用、甚至它们在一个细胞或生物体中如何发挥作用的内部的统计近似值。
生物学语言要比任何人类的语言复杂得多。一个细胞的所有组成部分和层面都是相互影响的,科学家们希望将不同的基础模型组合起来,创造出比它们之和更大的东西——就像把发动机、机身、起落架和其他部件组合成一架飞机一样。陈-扎克伯格倡议公司科学主管、虚拟细胞观点文章的第一作者斯蒂芬·奎克说:“最终,所有这些都将聚合在一起,形成一个大模型。”
换句话说,这个设想是,为DNA、RNA、基因表达、蛋白质相互作用、细胞组织等设计的算法,如果以正确的方式组合在一起,可能构成一个虚拟细胞。奎克说:“我们现在还不太清楚如何实现这一目标,但我相信会实现的。”(编译/马丹)