转自:中国科学报
高端芯片进口受限、核心基因数据库禁止国内用户访问……诸多外部事件,让基因组学的国产科研方案从备选成为必选。但面对未充分运转的国内基因组学生态体系,科研人如何切换国产科研环境成为新难题。
近日,北京脑科学与类脑研究所基因组学中心主任张力在接受《中国科学报》专访时表示,国产算力硬件已经能够很好支持基因组学科研工作。而面对国内海量基因测序与分析需求,国产软件也将迎来快速发展机遇,并逐步实现基因组学计算生态的自主与可控。
?
国产算力能够很好支持基因测序
“国产CPU和GPU在某些直接性能测试中可能不如国外最新产品,但在实际应用中,硬件参数并非决定因素。更重要的是算力设施对整个基因组学软件生态的支撑与持续优化能力。”张力强调,基因组学是一个数据密集型科研场景,其研究核心是海量数据(维权)的处理和分析,而高性能计算是支撑这一过程的关键技术。
以全基因组测序为例,每1万人的原始数据就达到1PB(1PB=10的6次方GB),经初步处理后数据量通常会达到5PB。而对这种规模的数据处理,例如曙光等国产高性能计算平台已可支撑。“曙光等国产算力在兼容性方面表现已很好,能够支持绝大多数生物学软件的直接运行。”张力表示。
尽管国产算力设施已能较好支持基因组学研究,但要实现基因组学的自主可持续发展,生态建设仍是关键。
“软件大多用的都是国外产品,国产软件不是没有,但从顶层设计到应用严格说没有形成一个体系。”张力介绍,依托国内海量基因测序与分析需求,可基于国产硬件完善基因组学软件工具链,以应对可能到来极端情况。“头部海外软件很多功能如果付费也不卖给你,就会存在很大问题了。”
生态缺失导致科研成果转化难
建立基因组学的国内生态体系,除能克服海外“断链”风险外,更重要的是可推进基因组学产业化应用,加快科研成果转化。
张力介绍,在建设北京脑科学与类脑研究所基因组学中心时,从样本采集到数据处理整个流程,都使用国产解决方案,但在研究成果如何落地却有着产业化“鸿沟”。
目前,北京脑所承担着由北京师范大学牵头的中国学龄儿童脑智发育队列的基因组学子任务。截至今年5月该中心已完成6000名儿童横断队列全基因组测序,但这些测序数据该如何同步第三方进行产业化应用,却面临着一系列包括安全、产权、技术、运营等问题。
“我们的数据集不仅在国内领先,在全球范围内也非常具有竞争力。已经有多家药企表示兴趣,政策方面也希望通过基因数据来研发新药,而不是拿青少年直接做实验。但如何实现数据安全共享,国内并没有标准化解决方案。”张力表示,产业化难题与基因组学生态体系不完善密切相关。
国家包括北京市正在努力推进人类遗传资源保护和利用体系,通过完善的顶层设计综合产权、技术和运营等方面打造创新模式,力图在AI加速药物开发的机遇窗口实现我国药物开发的弯道超车。
生态发展需兼容国际主流研究环境
对于如何加快国内基因组学生态体系建设,张力表示需从兼容性、完善性和人才培养多方面入手,在兼容国际主流研发环境的情况下,逐步构建并优化国产软硬件生态。
“兼容国际主流生态并不意味着被动跟随,而是要在保证兼容性的同时,逐步构建起具有中国特色的国产生态,并培养一批能够熟练使用国产软硬件的技术人才。只有这样,国产生态才能真正发展壮大并走向国际市场。”张力介绍。
他举例,在与国内某厂商合作中,对方曾就派出三四十人团队就北京脑所500多款生物学专业软件进行优化,以适配该公司提供的算力平台。
虽然迁移最终完成了,但生物学软件都在持续迭代,若不能兼容国际主流生态或开发出国产硬件的软件版本,每个海外软件新版本迁移都需要投入大量人力和时间,这将导致使用成本大幅上升。
“当前窗口期,需要在国产兼容生态上加快完善国产工具链,抓住AI加速药物开发这样的历史机遇,迅速壮大国产计算生态,逐步建立和推广中国标准和软硬件生态。”张力说。