当前位置: 首页>后端>正文

Scientific Reports- Identification of cell types from single cell data using stable clustering

Identification of cell types from single cell data using stable clustering

https://doi.org/10.1038/s41598-020-66848-3

  • 一句话概括:
  • 本文发明了一种新的clustering的pipeline来对单细胞数据进行聚类,通过比较发现这种聚类方式比之前常用的几种聚类方式比如SC3、SEURAT等都要稳定,其聚类效果也更接近实际细胞分类

1.Pipeline原理和算法介绍

*文章中描述的新的pipeline的workflow


Scientific Reports- Identification of cell types from single cell data using stable clustering,第1张
workflow.png

1.1 Input&Gene filtering (A)

  • Input : 输入的数据结构为单细胞的基因表达矩阵,行为基因,列为细胞
  • Gene filtering : 去除掉在所有细胞中都没有表达的基因
  • 输出 : 仍然为单细胞的基因表达矩阵,行为基因,列为细胞,此输出将作为下一步的输入

1.2 Measuring the dissimilarity between the cells (B)

  • 计算细胞之间的不相似性(相似性),其实就是计算所有细胞之间的欧式距离;得到的矩阵行为细胞,列也为细胞,其中的元素为细胞之间的欧式距离
  • 输入 : 上一步得到的基因表达矩阵
  • 算法 : Euclidean Metric/Euclidean Distance (欧几里得度量/欧几里得距离),具体算法见文末
  • 输出 : 输出为行为细胞列为细胞的矩阵,其中的元素是细胞之间的欧式距离

1.3 Clustering (C)

  • 此步的目的是对以上得到的细胞间欧式距离的矩阵进行降维,并找到对于此数据集最佳的聚类个数(K)
  • 过程
    1. 将以上的欧式距离矩阵进行t-SNE降维,得到一个 细胞数X2 的矩阵,这个过程重复50次,以下步骤(2,3,4)是对于每一次的结果而言
    1. 对得到的降维矩阵进行K-means聚类,其中K的范围为2到20;即进行19次聚类,其中参数K分别为2到20
    1. 以上得到的19次聚类结果,分别计算其Average silhouette值
    1. 在以上19个Average silhouette值中选出最大值,并得到这个最大值对应的K值
    1. 由于以上步骤(2,3,4)一共进行了50次,故得到50个K值,取这50个K值的平均值,并对其进行四舍五入,得到的数值即为以下使用的最佳K值


      Scientific Reports- Identification of cell types from single cell data using stable clustering,第2张
      Clustering.png
  • 输入 : 细胞间欧式距离矩阵
  • 算法 : t-SNE,K-means,Average silhouette method
  • 输出 : 最佳K值;t-SNE降维结果(细胞数X2矩阵),具体选取哪次的结果文中未提及,推测可以选取任意一次的结果

1.4 Identifying the most stable clustering (D)

  • 用以上的到的K值和t-SNE降维矩阵进行聚类,得到最稳定的聚类结果
  • 输入 : 上一步得到的最佳K值和t-SNE降维矩阵
  • 算法 : K-means,Jaccard coefficient
  • 过程
    1. 用以上的到的K值和t-SNE降维矩阵进行n次K-means聚类,以下步骤(2,3,4)都是针对其中的每次聚类而言的
    1. 对t-SNE矩阵进行m次重新取样,具体方式为去掉其中5%的样本并用噪声数据点代替
    1. 对以上的到的m个新的t-SNE降维矩阵分别进行K-means聚类,共得到m个新的聚类,每个聚类中有k个cluster
  • 4.1 计算原始聚类中每个cluster的Stability score;用原始聚类中的一个cluster与m个新聚类中的每一个进行如下计算:此cluster与某个新聚类结果中的每一个cluster做Jaccard coefficient计算,取其中的最大值;此最大值便为此cluster与此新聚类结果中最相似cluster的相似度;如果此Jaccard coefficient >= 0.75,则说此原始cluster在此次比对中是稳定的
  • 4.2 计算原始聚类中每个cluster的Stability score;对于原始聚类中的每一个cluster,以上Jaccard coefficient计算一共计算m次,假设其中稳定的比对为q次,则说此原始聚类中此cluster的Stability score为q/m
  • 4.3 计算原始聚类的总体Stability score;原始聚类的Stability score等于此聚类中所有cluster的Stability score的平均数
    1. 按上述步骤(2,3,4)一共得到n个原始聚类的总体Stability score,选择总体Stability score最高的那个聚类作为最终的最稳定聚类


      Scientific Reports- Identification of cell types from single cell data using stable clustering,第3张
      1-5.png

      Scientific Reports- Identification of cell types from single cell data using stable clustering,第4张
      4.png

2.其中用到的具体算法

2.1 Euclidean Metric/Euclidean Distance

2.2 t-SNE

2.3 K-means

2.4 Average silhouette method

2.5 Jaccard coefficient


https://www.xamrdz.com/backend/3tk1927899.html

相关文章: