近日,四川大学彭玺教授团队开发出一款准确、高效的元细胞推断方法 MetaQ,将时间复杂度从现有方法的指数级降低到线性,并具有常数级的空间复杂度。
图 | 李云帆(来源:李云帆)课题组告诉 DeepTech,这也是首个可以处理任意规模单细胞数据的元细胞推断方法。相较于当前最优的 SEACell 方法,MetaQ 方法在处理 10 万个细胞时,时间效率提升大约 100 倍,内存开销仅有前者的 1/25。由于内存限制的原因,当该团队使用 SEACell 方法的时候,在他们的服务器上无法处理更大规模的数据,但是理论上本次方法在更大规模数据上的计算效率优势会更加明显。
(来源:Nature Communications)将现有元细胞推断方法复杂度从指数级降低到线性
课题组表示,MetaQ 的最大贡献在于将现有元细胞推断方法的复杂度从指数级降低到线性,在保留生物特性的同时能够显著减少待分析的细胞数量,从而让传统单细胞分析工具处理百万级的测序数据成为可能。
MetaQ 方法显著的效率和可扩展性优势得益于从一种新的视角来理解元细胞。之前的 SEACell 等方法都是通过直接计算细胞间的距离,以“判别式”的方式寻找相近的细胞合并成元细胞。但是,当数据规模增大之后,全局的相似性计算和细胞合并过程会面临巨大的时间成本和内存开销。
与现有方法不同的是,他们受到细胞发育分化过程的启发,发现元细胞的推断过程可以看作是细胞分化的逆过程,即若干个相似的细胞可以回溯到同一个元细胞,而这个元细胞保留了这些细胞共有的特征,它能有效地分化出其下的全部原始细胞。
基于这一思想,他们提出通过“生成式”的细胞量化过程来实现元细胞推断。简单来说,MetaQ 将所有原始细胞量化到一个具有若干可学习条目的码本,每个细胞会被分配到与其最相似的条目,而码本里的每个条目则对应一个元细胞,用于重构它所量化的所有原始细胞。为了更好地重构效果,模型会倾向于把相似细胞量化到同一个条目中,从而去识别同质细胞进而实现元细胞推断。
本次所提出的细胞量化框架主要具备两方面优势:一是避免了细胞间全局相似性的计算,从而能够显著提升计算效率;二是通过改变量化重构的目标,可以轻松适配不同组学或多组学的测序数据,大大提升了方法泛用性。
除了效率上的显著提升,在细胞类型注释、发育轨迹推断和差异表达分析等多个下游任务上,本次 MetaQ 方法也取得了更优性能。
MetaQ 在上游层面实现了测序数据的有效压缩,突破了各类单细胞数据下游分析的计算瓶颈,对于精准医疗、疾病机制解析、药物研发及再生医学等不同应用领域具有深远影响。
首先,MetaQ 有望推动个性化治疗迈向更精细的层面,使得癌症、神经退行性疾病和自身免疫病等复杂疾病的异质性得到前所未有的解析,同时促进靶向治疗方案的优化。
其次,在新药开发过程中,大规模的单细胞数据可用于高通量药物筛选,从而精确揭示药物作用机制及细胞耐药性演化,提高先导化合物筛选的效率。
再次,在免疫治疗领域,大规模单细胞数据可以描绘完整的免疫细胞图谱,指导个体化疫苗设计和细胞治疗策略的优化。
最后,在再生医学方面,干细胞分化的精确调控依赖于对细胞命运决定机制的深入理解,而大规模单细胞分析可提供系统性指导,从而提高组织工程和器官再生的成功率。
总而言之,MetaQ 提供了一个实用的单细胞数据压缩增强工具,显著降低了大规模单细胞数据分析的计算开销,对于各类下游任务均具有推动作用,能够助力研究人员从海量数据中发现新的生物规律。
(来源:Nature Communications)一劳永逸解决大规模单细胞分析计算复杂度难题
近几年来,该团队尝试开展了一些单细胞智能分析方面的工作。在与华西医院的同行交流的时候,得知目前单细胞测序技术已经非常成熟,可以获得大量高质量的测序数据。而现在单细胞领域研究的瓶颈更多是在下游分析阶段。
简单来说,目前常用的 Seurat、Scanpy 等单细胞分析工具并没有针对大规模数据进行优化,很多分析算法的复杂度都是指数级,这就导致处理几十万个细胞一次可能要等一天多的时间。如果数据规模再大一些就会直接出现内存不足的情况,曾有一支来自华西医院的团队把内存加到 2T 发现也没能从根本上解决计算开销的问题。
尽管一些新开发的基于深度学习的单细胞分析算法,对于大规模数据分析有着比较好的支持能力,但是这些算法大都是只面向某一个特定的任务,比如细胞分群、数据整合等等。
而在实际分析流程中可能会涉及到一连串的任务,需要依次调用不同的算法。然而,不同算法之间的数据接口往往又不互通,这就造成了较高的部署成本和学习成本,因此大家还是更倾向于使用 Seurat、Scanpy 等经典的成熟分析工具,以便在一个框架下完成各种常用任务。
那么,如何让传统的分析工具也能处理大规模数据呢?一种最直接的想法就是对数据进行压缩,其中元细胞推断方法便是通过聚合生物学上相似的细胞群体,将若干个单细胞压缩为单个代表性的元细胞,从而在最大程度上保留生物信息的情况下显著减少待分析的细胞数量。
之前的 SEACell 等元细胞推断方法已经验证所推断得到的元细胞能够很好地作为原始细胞数据的代理,根据元细胞得到的分析结果和根据原始细胞得到的分析结果具有良好的一致性,甚至前者还可能更好一些,因为元细胞在一定程度上缓解了测序数据的稀疏性。
但是在实际使用中他们又发现一个问题:虽然对元细胞进行分析能够显著提升效率,不过从海量数据中准确推断出元细胞这个过程非常的耗时,比如当前效果最好的 SEACell 方法从十万个细胞中推断一千个元细胞需要花费一天多的时间。
换而言之,现有的元细胞推断方法本质上是将计算瓶颈从下游分析转移到元细胞推断阶段,并未真正解决计算复杂度问题。
因此,他们就想开发一个准确、高效的元细胞推断算法,一劳永逸地解决大规模单细胞分析中的计算复杂度问题,助力高通量测序时代单细胞智能分析领域的发展。
(来源:Nature Communications)解决问题比使用高级方法更重要
沿着上述思路他们开始了文献调研,发现已经有一些元细胞推断方法具备一定能力。然而,试了一下之后发现虽然推断出的元细胞能够作为代理较好地保留原始数据中的信息,但是这些元细胞推断方法还是很慢,并没有从根本上解决计算复杂度的问题。
因为他们课题组是计算机出身,想到人工智能领域用于数据或者模型压缩的经典思路便是量化(Quantization),于是开始尝试设计面向单细胞数据的量化重构框架。
在具体开发中,他们调研了不同组学的单细胞数据的分布特点,做了针对性的数据建模。在初步实验中,他们发现当量化码本的条目个数增大之后,可能会出现码本的坍缩问题,于是他们又进行了方法改进,设计了条目的调整机制。
在实验验证中,他们找到不同规模和不同组学的若干个单细胞数据集,在不同下游任务上验证了此次方法的有效性,借此发现本次方法能在显著提升计算效率的情况下,取得和现有方法差不多甚至稍优的元细胞推断结果。
日前,相关论文以《MetaQ:通过单细胞量化实现快速、可扩展和准确的元细胞推理》(MetaQ: fast, scalable and accurate metacell inference via single-cell quantization)为题发在Nature Communications[1],李云帆是第一作者,彭玺担任通讯作者。
图 | 相关论文(来源:Nature Communications)彭玺表示:“我认为在 AI4Science 研究中,最重要是找到合适的研究问题。只要所开发的方法能够真正解决一个哪怕很小、但却是生命科学研究过程中很棘手的一个问题,那我觉得这个研究就是有意义的,并不需要刻意去追求方法设计中用到了多少前沿的、复杂的技术,有效且能解决真问题才是最重要的。”
关于这个方法本身,他们认为现在目前的整体框架已能较好地实现大规模单细胞数据压缩,后续可能会在细节上进行改进。
比如,尝试利用最新的单细胞基座模型来进一步提升性能,面向更多的组学设计相应的数据建模方法,或者针对空间转录组等数据类型进行针对性的方法优化等等。
参考资料:
1.Li, Y., Li, H., Lin, Y. et al. MetaQ: fast, scalable and accurate metacell inference via single-cell quantization.Nat Commun16, 1205 (2025). https://doi.org/10.1038/s41467-025-56424-6
运营/排版:何晨龙
上一篇:南方人最怕的回南天来了