AlphaFold是如何进化的?我们离新的科学突破还有多远?
创始人
2024-05-28 19:45:22

原标题:AlphaFold是如何进化的?我们离新的科学突破还有多远?

5 月 8 日,谷歌 DeepMind 发布了其生物学预测工具 AlphaFold 的最新版本 AlphaFold 3。

由于其预测“几乎所有分子类型”的蛋白质复合物结构的能力,并在预测药物相互作用上实现了前所未有的准确性,它在一夜之间,为生物学领域带来了巨大的变革,点燃了科研界的热情与想象。似乎,人工智能正以前所未有的方式重塑我们探索自然法则的边界。

那么,AlphaFold 一步一步走来是如何实现今天的成就?在如今这个 AI 极大地影响我们开启新科学的方式的轨迹中,我们处于什么位置?人工智能能否帮助我们发现全新的科学?

关于这些疑问,DeepMind 的科学副总裁 Pushmeet Kohli与斯坦福大学教授 Vijay Pande 在 a16z 近期的一次访谈中,展开了深入讨论,对这些问题作出了回答。

(来源:a16z)

1. AlphaFold 是如何进化的?

在 Pushmeet Kohli 看来,如今,AI 已经不再是单纯的辅助工具,而是理解和推理复杂问题的必要条件。它标志着一个新时代的到来——一个人类个体已难以独立消化我们所积累的海量数据的时代。

正是由于看到了深度学习等在科学研究领域方面的潜力,两位科学家分别于几年前就投身这一领域。

Vijay Pande 认为,在生物学研究领域,我们正见证着一场深刻的工业化转型。

尽管现代生物实验室在表面上看起来与几十年前没有太大差别,也有穿着白大褂的科研人员和实验台旁的各种操作等,但实际上,人工智能的应用已经逐渐推动其研究由手工化到工程化和工业化的转变,将传统手工流程转变为高效、标准化的生产模式。

不过,这种变化并非是一朝一夕之功,在 2015 年的时候,我们或许能看到一些蛛丝马迹,而这种变革可能需要二三十年,目前,我们还只是处于前十年的阶段。

这绝非一蹴而就的过程,但当我们回顾过去时,就能发现整个世界已经被彻底改变了。

AlphaFold 的强大能力就并非一夜炼成,尽管许多人是在 2020 年留意到其成就,但它的起点却在 2017 年就开始了。

一开始,AlphaFold 项目专注于对蛋白质结构的预测,即根据氨基酸序列推断定构成蛋白质的三维结构。

这一步对理解蛋白质功能、促进药物研发及深入探索细胞生物学等领域具有重大意义。而且,它也是一个典型的机器学习问题,需要在大数据支持下处理复杂的推理任务。

在当时,结构生物学界已经开始了一项意义重大的项目,即 Protein Data Bank(PDB),它的建立为 AlphaFold 的研究提供了高质量的数据集。

PDB 汇集了全球科学家多年努力获取的蛋白质结构信息,截至项目开始时,已积累约 15万份结构记录,为机器学习模型训练提供了强大支撑。

为了解决机器学习自我欺骗的问题,学界还每年举办蛋白质结构预测关键评估(Critical Assessment of protein Structure Prediction,CASP)竞赛,通过盲测机制评估模型性能,以避免自我欺骗问题,确保研究的可靠性。

AlphaFold 在 2018 年末的 CASP 竞赛中就已经崭露头角,拿下了一等奖,超出了当时团队的预期。由此也得以强化了团队的信心,并进一步加快了他们的跨学科合作策略,尤其是结构生物学家和生物物理学家的加入,如 John Jumper 等人,为项目的后续发展做出了相当大的贡献。

图丨DeepMind高级研究科学家 John Jumper(来源:Canada Gairdner Internation

但即便此时模型已表现出世界领先水平,其实用价值实际上仍然有待提升,AlphaFold 1 的能力仅限于预测氨基酸间距离而非直接结构,且其错误反馈机制也比较受限。

图丨AlphaFold 1 的工作流程(来源:DeepMind)

团队认为,要取得突破,必须向端到端模型跃进化,即直接从氨基酸序列预测结构,这虽起点更低,但构建第二个端到端模型是必要的进化。

于是,团队决定从零开始,抛弃既有框架,转而追求实现蛋白质结构预测的根本性突破。

一开始,AlphaFold 2 的性能远不如前代,整个项目甚至数月停滞不前,团队甚至为此设立了一个排行榜,对每个成员的每一个想法进行了实验。

最终,经过不断的迭代和试错,团队在新冠疫情初期实现了重大突破,成功在量化蛋白质结构、预测、准确性的关键指标 GDT(Global Distance Test,全局距离检验)上实现突破。

在 CASP14 中,AlphaFold 2 在所有目标的总体得分达到了 92.4 GDT,这意味着大约有 1.6 埃的平均误差(RMSD),与原子的宽度相当,在 Free-modeling(无模板)也达到了 87.0 GDT。

图丨历届 CASP 的 Free-modeling 得分中值与 AlphaFold 的得分(来源:Deepmind)

然后,新冠大流行就来了,这让整个团队意识到了他们项目的重要性。

AlphaFold 团队很快就生成了六种可能与新冠病毒有关的蛋白质结构预测结果,并对外公布,为科学家们应对疫情提供了帮助,设计相关疗法。

2020 年 9 月,在第二次 CASP 竞赛结束后,团队收到组织方的意外联系,他们对 AlphaFold 的突出表现表示惊讶,甚至有人质疑其成绩的真实性。

后来,团队发布了 AlphaFold 2,它表现出了出色的准确性与效率,于是团队决定利用它的力量,预测并公开发布近乎所有已知的约 2.5 亿个蛋白质结构,与欧洲分子生物学实验室合作,将这些数据整合进公共数据库中,使之成为广泛可用的重要资源。

而 Vijay Pande 则从一位研究者与投资者的角度,对 AlphaFold 的意义进行了探讨。

Vijay Pande 指出,结构生物学是生物学和药物设计的基石。

最广为人知的例子就是,1953 年由 James Watson 和 Francis Crick 所提出的 DNA 结构,通过观察这一结构,我们能够推测出 DNA 的复制机制,也就是遗传学在某种程度上是如何工作的,以及它的基本原理。

图丨Watson 与 Crick 和他们提出的 DNA 模型(来源:Science History Institute)

结构生物学的这一核心地位正因技术进步而迎来复兴,以往需数年时间的实验结构解析如今可借助如 Cryo-EM(冷冻电子显微镜)等技术在数天内完成,从而加速了科学发现的进程。

而 AlphaFold 的突破性就在于它将结构生物学转变为一种几乎即时的“数据库查询”,尽管实质上是基于预测,但随着预测精度的提升,其效用与直接查询数据库无异。

这一转变极大降低了研究门槛,因为在以前,仅仅解析单个结构就可能就需要耗费整个学者的博士生涯。

AlphaFold 则使科学家无需开展耗时费力的实验就可以快速获取结构信息,这种影响就类似于人类基因组数据库对遗传学研究的变革性影响。

他进一步阐述,当前,学术界与产业界的角色分工正发生变化。

昔日由学术界主导的某些高技术领域,如计算机芯片设计,已逐渐转移到企业界,因为后者在资源、技术和市场适应性上拥有更多优势。

他认为,AlphaFold 的成功案例展现出 DeepMind 等公司在承担此类大规模计算密集型项目上的优势。这种转变标志着科学创新进入了一个新阶段,即学术知识快速转化为产业应用,推动科学研究的工业化进程。

那么,AlphaFold 等其他 AI 技术,是仅仅只帮助科学家在现有领域提升效率,还是真正推动科学边界的扩展呢?

Vijay Pande 以药物设计为例,表示 AI 在生物学的应用正逐步揭开生物通路的本质。AI 使得科学家能够在不直接进行人体实验的前提下增进对人类生物学的理解,这是对以往受限于伦理和技术障碍的一大突破。

AI 模型,尤其是针对人类的预测模型,相较于传统的小鼠模型,在预测人类生物学方面展现出更强的准确性和独特价值,为绕过动物实验直接洞察人类生理机制提供了可能。

他进一步阐述,AlphaFold 等项目属于生物学 AI 领域,但它们也正引领着从物理化学角度快速推进蛋白质药物化、设计新型抗体等方向的研究。

而 AI 技术在临床试验领域的应用,例如优化试验设计、降低成本、提高成功率,也能带来显著的经济效益。

尽管目前只是处于起步阶段,但 AI 技术在推动科学前沿、改善临床研究及实现精准医疗方面的潜力巨大,未来可期。

2. AI 是否正在引领我们进入科学前沿?

除了生物学领域之外,Pushmeet Kohli 的团队还发表了众多其他论文,探索了 AI 与数学、物理等多个领域的融合,这些都指向一个核心问题:这些跨学科的模型是否正引领我们进入科学新前沿?

Pushmeet Kohli 表示,我们正在进入一个数据量级超出单个人类认知极限的时代,这在任何领域都是如此。

以纯数学中的拓扑学研究为例,AI 能够做到生成大量数据,并通过神经网络发现两种不同结定义间的联系,从而发现揭示之前未被数学家发现的规律。

图丨相关论文(来源:Nature)

所以,AI 不仅在扩展我们的知识边界,还能在传统认为需要人类直觉的领域内,揭示出新的发现。

Vijay Pande 认为,生物学界的观念正在转变,从一开始认为生物学过于复杂难以理解,转而利用 AI 技术整合海量数据,开始“翻译”生物学的自然语言。AI 为人类提供助力,就好像人类能用机械能举起远超人类能力范围之内的东西。

随着 AI 在某些领域超越人类能力,重要的是思考人类如何与之协作,共同推动科学边界。

那么,我们到底应该怎么做?虽然 AlphaFold 的开源给科研工作者们提供了工具,但我们如何利用像它一样的 AI 工具进行突破创新?

Pushmeet Kohli 提到,自 AlphaFold 发布后,已经获得来自近 90 个国家、超过 1700 万用户的访问。

它不仅促进了基础生物学的重大发现,例如核孔复合体的研究,还助力开发了分子注射器、新型疫苗、抗抗生素耐药性抗生素,以及参与塑料降解酶的开发等,覆盖从基础科学到药物研发、合成生物学等多个领域。

AlphaFold 的应用已经表现出了出人意料的潜力。

Vijay Pande 认为,这种技术应用的拓展反映的是生物学乃至整个科研领域思维方式的转变。

在过去,我们往往依赖实验验证作为知识来源,而今预测模型的重要性日益凸显。

尽管伴随着对预测可靠性的警惕,但其对加速科学发现的价值不容小觑。

他强调,技术进步背后,更重要的是文化和思维模式的变革,这是推动科学界持续前行的关键动力。

当前的种种实践迹象,正是思维转型的积极信号,预示着科研范式更加开放且富有前瞻性的未来。

另一方面,现在这些新兴工具的帮助下,科研的经济模式也逐渐发生了改变。

例如,借助外包实验和云服务等计算资源,小型团队也能够高效运作,减少对资金依赖,从而快速推进项目,而这些进步也将进一步促进疗法的更快、更低成本和更高效开发。AlphaFold 的开源就无疑为发展中国家的科学家提供了便利。

不过,要实现更具体的科学目标,如配体设计、解决共晶问题等,还需要进一步的科研投入和模型优化。

3. AlphaFold 为什么开源?

Vijay Pande 认为,在 AI 和生物学领域,开源促进了知识的累积和快速发展。

过去几年 AI 领域之所以能迅速进步,很大程度上就得益于研究结果伴随代码或详细报告的即时共享,这使得研究者能够迅速验证、复现并在此基础上进一步创新,如同层层累加的摩天大楼,达到了惊人的发展速度。

当然,也并非所有部分都适合开源,如药物化合物,因为高昂的临床试验费用使得开源在经济上并不可行。

而对于公众所担忧的 AI 开源可能带来的潜在风险,如设计有害分子等。他解释说,设计治疗疾病的药物极其复杂,与设计具有潜在危害的化学物质相比,难度不成比例。

即使是最安全的设计也可能在临床试验中显示出毒性,而有害物质的制造相对容易获取。因此,AI 在药物设计中的应用并不会增加额外的风险,因为现存的负面可能性早已存在。

AI 的贡献在于加速有益药物的发现,而不能消除固有的风险。

那么,AlphaFold 为什么会选择开源?

Pushmeet Kohli 回应称,其首要的考虑是最大化模型的社会和科学影响力。

由于 AlphaFold 触及生物学、化学和药物发现等领域的根基,保持闭源会限制其潜力的全面发挥。

例如,AlphaFold 在开源后意外展现出预测蛋白质内在无序区域的能力,而这在此前并未经专门训练,因此,鉴于模型潜力的不可预测性,开源有助于更充分发挥其优势。

图丨相关论文(来源:PNAS)

为了限制其潜在的恶意用途,团队在决定开源前,与各领域专家进行了广泛咨询,以确保发布能被负责任地使用的模型。

同时,经过仔细的考量,团队认为开源的积极影响将远超模型开发成本,所以,团队最终决定将 AlphaFold 开源。

不过,出于对社会影响、科学影响、商业成本以及安全的考量,团队也并没有公布所有的模型。

以去年公布的变异影响预测模型为例,它具有高度准确地预测基因变异的致病性的强大能力,但考虑到其科学影响、安全、商业等因素,团队选择只发布预测结果而非模型本身。

这样既能分享研究方法,满足临床医生和生物学家的需求,又避免了模型被滥用的风险,平衡了各方因素。

虽然团队在诸多领域取得成就,但也并非在所有的领域都能一帆风顺。

Pushmeet Kohli 就提到,目前他对于系统生物学有比较大的兴趣,但是,从系统层面上深入了解生物系统的运作方式并不容易,这还并非基因组学、功能基因组学或结构生物学所能解决的问题。

他强调,为了确保所研究领域值得长期投入,他们在任何新领域开展项目前都会进行详尽的尽职调查,只有当确信有清晰的进展指标、可用数据、以及模拟与实际数据的结合,团队才会长期投身于其中。

Vijay Pande 补充道,数据在生物学和医疗领域具有非常重要的作用,但这些领域中的数据往往难以获取或被充分测量,而数据的获取和创新将是区分研究的关键,尤其是在生物学和医疗领域中,数据的多样性和质量将推动AI应用的创新。

主动学习和高效数据利用等技术也是创新的关键,但数据本身将长期占据核心地位。

4. 未来如何?

未来,AI 又将对哪一个科学领域产生变革作用?Deepmind 又有何期望?

Vijay Pande 表示,AlphaFold 在结构预测方面的进展激励了其他相关研究,如小分子结合预测等问题,但他在他看来,终极目标应该是预测临床试验效果,即理解药物在人体中的作用,这是系统生物学所面临的最大挑战。

未来,模型的发展可能从某一特定器官或部位开始,逐步集成,最终目标就是让 AI 模型优于动物模型,从而减少实验成本和时间,达到这一拐点将意味着研究范式的重大变革。

Pushmeet Kohli 则认为,科学的迷人之处就在于,还有着无尽的问题等待探索。

例如将 AlphaFold 的成果扩展到更广泛的分子交互,以及在基因组学、材料科学等领域的深入研究。

目前,他们在基因表达和基因组编码等研究方面已经取得了进展,但仍有许多未竟全功。

Deepmind 关注的不仅是某一特定的里程碑,而是如何推动科学范式转变,更合理地建模并解决领域问题。因此,他们会持续专注于特定领域,同时保持对新机遇的开放态度。

虽然预测临床试验和系统生物学的完全解析等目标似乎遥远,但回顾过去十年,深度学习等技术的迅猛发展已经足以让我们期待,未来十年内将实现更多突破。

Vijay Pande 对此抱有信心,虽然目标宏大,但当前正是逐步构建这一进程的阶段,每一步都充满可行性。

Pushmeet Kohli 也表示,虽然目前大部分研究所使用的模型都还在使用结构化数据,但近年来基础模型所展现出的对非结构化数据的处理能力,已经为我们将科学知识大规模融入模型开辟了新途径,它将有助于我们解决以往的理解不确定性和幻觉等缺陷。

一旦这些相关的技术瓶颈被攻克,那么科学发现模式将会发生彻底的变革。

参考资料:

[1].https://a16z.com/podcast/can-ai-advance-science-deepminds-vp-of-science-weighs-in/

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。

相关内容

热门资讯

国际观察丨理性占了上风?欧盟缘... 来源:新华网新华社布鲁塞尔12月20日电 题:理性占了上风?欧盟缘何选择援乌“B计划”新华社记者欧盟...
轻音乐剧《上海,谢谢侬!》,都... (来源:上观新闻)上海轻音乐团首部原创轻音乐剧《上海,谢谢侬!》将于12月25日晚在兰心大戏院首演。...
韩红为宁波小洛熙事件发声:这个... 本文转自【齐鲁晚报】;2025年11月14日,5月龄早产儿小洛熙在宁波大学附属妇女儿童医院接受心脏房...
揭牌并启动二期建设 又一国家级... 12月18日,盐城超级计算中心(简称“盐城超算”)“国家新一代人工智能公共算力开放创新平台”正式揭牌...
升级“联席制”、All in供...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:每日经济新闻...