seurat发展历史,cns之路
在单细胞数据分析中,特别是对初学者来说,Seurat是一个教科书级别的工具。至于这个用来分析单细胞多组学的工具为什么叫这个名字,我想,与它问世的第一篇文献不无关系:
-
Satija, Farrell, et al., Nat Biotechnol 2015 [Seurat V1]
Satija, R., Farrell, J., Gennert, D. et al. Spatial reconstruction of single-cell gene expression data. Nat Biotechnol 33, 495–502 (2015). https://doi.org/10.1038/nbt.3192
这篇文章的第一作者Rahul Satija和作者Aviv Regev成为日后单细胞领域人们耳熟能详的名字,而Seurat是一位画家的名字:
乔治·修拉(Georges Seurat,1859-1891),1859年12月2日生于巴黎,受过完整的美术学院教育,曾师从安格尔的学生亨利·莱曼(Henri Lehmann)学习古典主义绘画,后来又研究过 卢浮宫中的大师作品,对光学和色彩理论特别关注并为之做了大量的实验。他的画作风格相当与众不同,Seurat的画充满了细腻缤纷的小点,当你靠近看,每一个点都充满著理性的笔触,与梵高的狂野,还有塞尚的色块都大为不同。把文艺复兴传统的古典结构和印象主义的色彩试验结合起来。Seurat擅长画都市中的风景画,也擅长将色彩理论套用到画作当中。把最新的绘画空间概念、传统的幻象透视空间、以及在色彩和光线的知觉方面的最新科学发现结合起来。
而这也是一篇描绘空间分析的单细胞文章NBT。我们知道,空间定位是细胞命运和行为的关键决定因素,但在复杂组织中,空间解析、转录组范围内基因表达谱的方法还缺乏。RNA染色方法只检测少量转录本,而测量基因表达的scRNA-seq将细胞从其固有的空间环境中分离出来。正式在这篇文章中,Seurat以一个附件的形式面世了,Seurat一种通过整合单细胞RNA-seq数据和原位RNA模式来推断细胞定位的计算策略。
这里的几个附件都值得读一读,如Supplementary Text and Figures中讲述了空间分析的大部分关键点也给出了第一套Seurat教程:
在这个意义上,Serurat是为空间分析而生的。然后为了我们更好地理解Seurat,第一版的源代码我们还是需要拜读一下的:
Seurat_Source\seurat.R
Seurat_Source\seuratFxns.R
Seurat_Source\zfRenderSeurat.R
在2021年的Seurat的更新日志中,我们中不到SeuratV1的信息,这个日志是从Seurat 2.0.0开始记录的。V2是Seurat功能和形象的一大转折和重新定型,尽管保留了空间分析的功能,但更多地是转向单细胞多组学数据的整合分析。
-
Butler* et al., Nat Biotechnol 2018 [Seurat V2]
Butler, A., Hoffman, P., Smibert, P. et al. Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat Biotechnol 36, 411–420 (2018). https://doi.org/10.1038/nbt.4096
随着单细胞测序通量和纬度的提升,识别跨多个数据集(实验条件、技术平台、不同物种)的细胞亚群成为一个挑战。Seurat V2基于公共变异源(common sources of variation)集成scRNA-seq数据集的分析策略,允许跨数据集识别共享种群并进行下游比较分析。这即是日后人们在做数据整合(Integration)时说到的CCA的方法实现途径。
-
Stuart, Butler, et al., Cell 2019 [Seurat V3]
仅仅一年之后,在整合海量单细胞数据这条路上,Seurat越走越远,随着单细胞数据解析的组织类型越来越多,仅仅用Seurat的CCA还是有很多数据集无法整合到一起。于是,整合力度更大的算法出现了,策略也有所变化:直接以一个作为reference另一个作为query。这个概念像极了基因组数据分析中常用的mapping、alignment、blast。
单细胞转录组学已经改变了我们描述细胞状态的能力,但深入的生物学理解需要的不仅仅是亚群的分类。随着测量不同细胞模式技术的出现,一个关键的分析挑战是整合这些数据集,以更好地了解细胞的身份和功能。Seurat V3将不同的数据集“锚定”在一起,使我们不仅能够集成跨scRNA-seq技术的单细胞测量,而且能够集成跨不同模式的单细胞测量。
-
Hao, Hao, et al., bioRxiv 2020 [Seurat V4]
2020年10月,纽约基因组所( New York Genome Center )的 Satija Lab团队开发的单细胞分析工具Seurat升级到了4.0,其特性之一是开发了加权邻近(weighted-nearest neighbor,WNN)算法来分析多模态数据。所谓多模态(multimodal )是指同时在一个细胞内测量分属于(广义?)中心法则不同过程的特征(如,RNA,ATAC,膜蛋白等)。
seurat引用情况,技术快风
与2017年以来的Seurat的快速更新同时发生的是,单细胞技术的快速应用与普及。简单的几行命令可以看出,2021年以来,大部分时间,一日之内就有上千人下载和和安装Seurat:
# install.packages("cranlogs")
library(cranlogs)
tail(Seuratdl <- cran_downloads(from = "2017-08-01", to= "2021-06-01", packages = c("Seurat")))
date count package
1396 2021-05-27 1441 Seurat
1397 2021-05-28 1101 Seurat
1398 2021-05-29 499 Seurat
1399 2021-05-30 487 Seurat
1400 2021-05-31 1022 Seurat
1401 2021-06-01 1316 Seurat
plot(Seuratdl$date,Seuratdl$count)
seurat开发
Seurat的广泛应用既反映了单细胞组学的热度,也说明Seurat团队在开源这件是上做的很好。github上每天都有人提问交流,开发者也是其中的积极参与者。让我们简单回顾一下这个R包的发展史,感受一下时间的力量。
正式因为对单细胞数据分析有着深刻的理解和与用户的广泛交流,Seurat单细胞数据分析工具箱日渐完善。成为大部分入门单细胞数据分析的首选工具。Seurat不仅教程丰富,还附有大量可以直接练习分析的数据集和对其他工具的友好接口,如Velocity、LIGER、Monocle3、Harmony、alevin、Nebulosa等。
seurat数据结构,可扩展,数据管理
既然定位于初学者,或者说是单细胞探索性数据分析工具,那我们就来看看Seurat在除了质控,降维聚类,差异分析,整合分析之外一个十分重要的功能:数据管理。
基于R语言的S4结构,Seurat构建了一个以表达矩阵为核心的单细胞多组学数据结构。这样,一个Seurat其实就是一个study的实验设计。
这个数据结构也是大部分刚接触R语言的同学最容易困惑的:
- 为什么函数输入的是Seurat对象,输出的也还是Seurat呢?
- 降维的数据它是如何调用的呢?数据又藏在哪里呢?
- 更多找不到
开启你的seurat之旅,最短入门路径
最短入门路径是:
- 安装R语言
- 安装Seurat
- 安装SeuratData
- 打开Seurat网页
- 练习单细胞数据分析
- 分析自己课题组的数据
- 发表文献时引用Seurat
- 写自己的SeuratWrappers包
先练习再分析,先用SeurtData的数据集练习教程理解单细胞分析中的概念和Seurat的数据分析结构。
- Seurat Weekly NO.0 || 开刊词
- Seurat Weekly NO.1 || 到底分多少个群是合适的?!
- Seurat Weekly NO.2 || 我该如何取子集
- Seurat Weekly NO.3 || 直接用Seurat画fig2
- Seurat Weekly NO.4 || 高效数据管理
- Seurat Weekly NO.5 pseudocell该如何计算||或谈Seurat的扩展
- Seurat Weekly NO.06 || 数据对象转化之Scanpy2Seurat
- Seurat Weekly NO.07 || V4 新特性
- Seurat Weekly NO.08 || Seurat 交互系统
https://satijalab.org/seurat/
https://satijalab.org/seurat/news/index.html