作者:Resther
审稿:童蒙
编辑:angelica
想知道scRNA-seq分析中遭遇哪些痛点嚒?
想知道深度学习又是怎么被拿来解决这些问题的嚒?
一起来看~
1、scRNA-seq数据处理中的挑战
单细胞RNA测序(scRNA-seq)技术正带给生物医学领域新的发展,研究者利用这一技术能细致分析单个细胞层次上的信息。
过去几年中,用于scRNA-seq数据分析的生物信息学技术得到了飞速发展,但仍有一些尚未解决的挑战,比如缺失事件(dropout event)、批次效应(batch effect)、噪音(noise)、高维度(high dimensionality)、可伸缩性(scalability)等。
1.1 Dropout event
单细胞RNA-seq数据通常包含很多可能由于原始RNA扩增失败、或者低表达基因少量RNA分子和转录过程随机性而导致scRNA-seq数据表达矩阵中存在缺失值这一情况,称之为缺失事件(dropout event, dropouts是指空beads)。
dropout的比例是跟protocol相关,而且与每个细胞测序的reads数密切相关。Dropout event模糊了基因-基因关系的检测,由于在scRNA-seq中可能无法检测到大量真正表达的转录本,因此dropout可能会很大程度上影响下游的分析。
1.2 Batch effect
单细胞RNA-seq数据通常在不同的条件、平台或不同的实验室通过多批次收集。批次之间的差异会导致不同的基因表达值,称为批次效应。
这种批次因素可能会混淆真正在生物学上细胞间异质性导致的差异,如果不加以纠正,批次效应可能导致数据中出现虚假结构,并在下游分析中产生误导性结论。
已发表的用于scRNA-seq数据中去除批次效应的方法包括规范相关分析(canonical correlation analysis, CCA)和相互最近邻居(mutual nearest neighbors, MNN)。
1.3 Technical noise
除了缺失事件和批次效应外,其他一些技术因素也可能会导致scRNA-seq数据产生偏差,尤其是对于低表达基因而言,例如cDNA扩增偏差、细胞周期效应、测序深度不足等,我们将这种偏差称之为技术噪音。
1.4 Curse of dimensionality
scRNA-seq数据分析中的关键步骤是降维。scRNA-seq数据集通常包含大量基因的表达谱,其中一个基因对应一维,每个细胞的表达谱对应于高维细胞状态空间中的数据点。在某些数据分析步骤(例如:聚类)中,数据点之间的距离起着至关重要的作用。
然而,在高维空间中,随着数据点变得稀疏,距离度量(例如:欧几里得距离、马氏距离和曼哈顿距离)失去了有效性,使得最近邻居的概念不清楚,并且数据分析问题变得困难,这被称为维数诅咒(curse of dimensionality)。
此外,这可能会导致过度拟合的问题,尤其是在数据点数量相对较少的情况下。缓解高维问题的一种方法是增加数据,但是在大多数情况下这是不可行的,因为所需的数据量将随维数成倍增加。因此,另一种可行的解决方案是降维。
对于scRNA-seq数据,已采用或开发了许多降维方法,例如PCA、t-SNE、diffusion map、GPLVM、SIMLR和UMAP等。经过对模拟和真实数据的测试,已证明这些方法可有效地从高维scRNA-seq数据集中提取显著因素,并有助于提高各种下游分析的性能,例如聚类、可视化、细胞类型发现、拟时间分析和基因调控网络推断等。
然而,现有的降维方法仍然存在一些局限性,例如缺乏对随机采样的鲁棒性,无法在关注数据局部结构的同时捕获全局结构,对参数的敏感性以及较高的计算成本等。
1.5 Scalability
降维主要处理scRNA-seq数据中大量的基因,但数据大小的另一个关键参数是细胞数。这两个参数都带来了可伸缩性的挑战。
自从基于液滴的scRNA-seq技术(即Drop-seq)诞生以来,每个实验中分析的细胞数量已达到数万甚至数百万,这时需要更有效和可扩展的算法用于建模和数据分析。
在过去几年中,研究者已经发展了许多统计和机器学习方法来解决上述scRNA-seq数据分析问题。
然而,直到2017年,深度学习技术才开始被用来解决这些问题,其中自动编码器是迄今为止最受欢迎的技术。我们接着往下看~
2、自动编码器AutoEncoders
自动编码器是用于无监督学习的人工神经网络,有时也将其视为自我监督学习,因为目标输出直接来自输入数据。
自动编码器的主要思想是通过强制神经网络在某些约束条件下尽可能准确地重建输入数据集本身,从而学习有效的数据表示。在神经网络的内部隐藏层上施加约束(例如:降低维度),这会迫使模型忽略无关信息并捕获数据中最基本的模式。
典型的自动编码器包括编码器(将输入数据转换为内部表示形式)和解码器(从内部表示形式产生输出)。损失函数通常是基于输入和输出数据之间距离的某种度量(例如:欧式距离或Kullback-Leiler散度)的重构误差。
自动编码器通常用于降维。实际上,当损失函数为均方误差并且仅使用线性激活函数时,主成分分析(PCA)可以视为自动编码器的特殊情况。自动编码器的其他应用包括用于有监督学习的预训练、特征提取、信息检索等。
3、用于scRNA-seq数据分析的深度学习方法
下表中是2017年以来针对上述scRNA-seq数据处理中遇到的问题,研究者开发的一部分方法。接下来简单介绍其中几种:
为了解决dropout问题,研究者开发了几种插补(imputation)方法,例如MAGIC、 scImpute和drImpute。
Talwar等人提出了一种基于自动编码器的方法,称为 “AutoImpute”,用于处理scRNA-seq数据中的缺失。他们使用了超完备的自动编码器,其目的是通过关注输入稀疏矩阵中的非零条目来重新生成估算的表达矩阵。
Eraslan等人则提出了一种称为DCA(deep count autoencoder,深度计数自动编码器)的方法进行去噪,同时解决dropout问题。该方法的主要思想是根据噪声模型定义损失函数,例如负二项式(NB)和零通胀负二项式(ZINB)。当使用ZINB噪声模型时,损失函数就是ZINB分布的可能性。DCA的输出层包括每个基因的三个神经元节点,代表NB分布的均值(作为去噪数据)和ZINB分布的两个参数(即分散和丢失概率)。
与其他插补和去噪方法相比,DCA具有两个优点:一个是捕获基因间非线性依赖性的能力,一个是由于自动编码器的效率和对GPU使用的支持,可扩展计算数百万个细胞。
研究者也开发了几种用于降低scRNA-seq数据维数的深度学习方法。
Lin等人比较了4种神经网络体系结构以学习scRNA-seq数据的表示,并使用降噪自动编码器(DAE)进行了无监督的预训练。他们的主要目标是进行监督学习来确定细胞类型,用数据库查询来推断细胞类型或状态。他们也发现,在神经网络中加入蛋白质-蛋白质和蛋白质-DNA相互作用的先验知识,可以让网络表现得更好。此外,对所学模型的分析可以产生生物学见解,从而证明神经网络具有一定程度的可解释性。
Ding等人运用变分自编码器方法(VAE)开发了scvis,用来推断低维潜在变量的近似后验分布,从而学习从高维空间到低维嵌入的参数映射。与已有的通用方法(诸如t-SNE等)相比,scvis方法可以捕获数据中的全局结构,对噪声的鲁棒性更好,具有更好的可解释性。然而不足的是,scvis的运行时间成本非常高。
Wang和Gu提出了一种称为“ VASC”的方法,该方法同样使用变分自动编码器进行降维,并对scRNA-seq数据进行可视化。VASC的体系结构包括编码器网络,解码器网络和模拟零丢失事件的零膨胀层。与PCA,t-SNE和ZIFA等现有方法相比,VASC可以捕获数据中的非线性模式,并具有更广泛的数据兼容性。此外,VASC可以基于降维来重现细胞发育过程。然而,它仍然不足以重现细胞分化轨迹。
除了上述专注于解决一个或两个问题的方法之外,研究者也致力于开发出一个联合框架,将不同的工具集成于其中。
Lopez等人开发了一个称为“ scVI”(单细胞变分推理)的集成软件工具,该工具可以执行以下任务:批次校正,库大小偏差校正,缺失校正,插补,降维,聚类,可视化。该方法中,不同的分析任务都可以使用scRNA-seq数据的低维表示,以提高一致性和灵活性。scVI基于分层贝叶斯概率模型,使用变分自动编码器来进行降维,并使用神经网络来完成多个任务。scVI算法的体系结构建立在高度模块化的深度学习框架上,因此可以通过测试模块的其他组合(例如,非线性,正则化)来获得更好的结果。
SAVER-X是另一种用于数据去噪的方法,它是一个结合深度自动编码器的分层贝叶斯模型。此外,SAVER-X利用迁移学习来自动完成跨研究信息共享和数据集成的过程。因此,作者能够从小鼠细胞的scRNA-seq数据跨物种分析人类细胞,从而解决人类细胞数据短缺的问题。
scScope方法则用循环神经网络方法来去除批次效应、缺失事件和细胞亚群识别等。该方法的核心是自动编码器,其中包含用于批次效应校正的层和用于插补的层。插补层返回到编码器的开头,形成循环网络结构。如果只有一次迭代,则该框架是标准的自动编码器。此外,像其他深度学习方法一样,scScope为使用GPU的并行训练提供支持,从而有望为数百万个细胞提供可伸缩性的分析。
4、总结与展望
本文提到的方法最主要是使用了自动编码器方法,一种无监督机器学习方法,可能是因为scRNA-seq数据集通常无法使用标记数据。尽管用于scRNA-seq数据分析的深度学习方法取得了令人兴奋的发展,但仍然存在一些局限性,这些局限性可能会指出未来工作的方向。
首先,深度学习主要用于数据预处理(例如:降维、去噪和插补),只能增强而非直接执行下游分析任务(例如:细胞鉴定、基因调控网络推论)。
第二,在大多数情况下,尚不清楚深度学习方法是否明显优于传统统计或机器学习方法。未来有待研究者将深度学习方法与其他方法用于特定任务进行比较,以了解何时以及为何深度学习会更好地发挥作用。
第三,所报道的深度学习方法的性能可能对超参数值敏感。深度学习方法的鲁棒性和通用性应通过对一些第三方数据进行测试来评估。
第四,某些深度学习方法可以促进scRNA-seq数据与其他类型的单细胞数据的整合,例如:单细胞Hi-C数据、scATAC-seq数据、单细胞蛋白质组学和细胞成像数据。
最后,科学知识的发现需要更多的可解释性。尽管一部分研究者对自动编码器隐藏层进行了生物学解释,但仍有待开发出方法,能自动构建出模拟单细胞转录动力的模型。生成对抗网络(GAN)方法可能实现这一目标。
5、参考文献
Zheng, J., Wang, K. Emerging deep learning methods for single-cell RNA-seq data analysis. Quant Biol 7, 247–254 (2019).