转自:科普中国
据《自然》报道,谷歌DeepMind新开发的人工智能(AI)模型 AlphaGenome 可以帮助科学家解析基因组序列中的“暗物质”——非编码区,了解它们如何影响细胞内部运作并导致癌症等疾病的发生。目前,从事非商业工作的研究人员可以使用编程接口通过 DeepMind 的服务器访问该模型。这个AI模型在 6 月 25 日的预印本中进行了描述。
研究人员将大量基因组数据输入机器学习系统,训练它们预测非编码序列的作用。图片来源:JuSun/iStock via Getty
2001 年,《自然》发表由美、英、日、德、法、中六国科学家共同完成的人类基因组序列草图。然而直到现在,约 31 亿个碱基对中的许多仍然是待解之谜。
在长长的人类基因组序列中,98% 是不直接参与蛋白质编码合成的基因,即非编码区,但它们可以影响蛋白质活性,并包含了大量与疾病相关的变异位点。这一部分尤其让科学家感到头疼。
弄清楚 DNA 序列的作用很难,因为没有现成的答案,就像 AlphaFold 预测蛋白质 3D 结构一样。从吸引一组细胞机器附着在染色体的特定部分并将附近的基因转录为 RNA 分子,到吸引影响基因表达发生地点、时间和程度的转录因子,单个 DNA 片段具有许多相互关联的作用。例如,许多 DNA 序列通过改变染色体的 3D 形状来影响基因活性,从而限制或简化转录机器的访问。
几十年来,科学家开发了数十种 AI 模型来理解基因组。其中许多都集中在单个任务上,例如预测基因表达水平或确定外显子是如何被剪切并拼接到不同蛋白质中的。而 AlphaGenome 正是一个“一体化”解释 DNA 序列的工具。
AlphaGenome 可以处理多达 100 万个 DNA 碱基,这可能包括一个基因和无数个调节元件,并能针对多种生物特性进行数千次预测。而且, AlphaGenome 在预测过程中对单个 DNA 碱基的变化十分敏感,这意味着科学家可以预测突变的影响。
DeepMind 研究人员利用 AlphaGenome 分析了先前研究中发现的一种白血病患者的不同突变。该模型准确预测了非编码区突变间接激活了附近的一个基因,后者是这种癌症常见的驱动因素。
不过,研究人员表示,AlphaGenome 仅基于人类和小鼠的基因组,以及其他相关实验数据进行训练,还没有测试它在其他生物中的有效性。此外, AlphaGenome 预测的准确性还有提升的空间。例如,该模型难以识别位于 10 万多个碱基对以外的目标基因序列。
美国冷泉港实验室的计算生物学家 Peter Koo说,AlphaGenome 和类似的模型尚未捕捉到不断变化的细胞性质如何影响 DNA 序列的功能。因为这些模型只能在一个固定环境中进行预测,而细胞是动态的:蛋白质水平、 DNA 上的化学标签和其他条件会随着时间或细胞类型的不同而变化,这可能会改变同一序列的行为方式。