本篇转自:单细胞个性化分析之转录因子篇 - 简书 (jianshu.com)
转录因子(Transcription Factors,TFs),是指能够以特定序列与基因专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。转录因子通过识别特定的DNA序列来控制染色质和转录,以形成指导基因组表达的复杂系统。许多转录因子充当着主调节因子和选择基因的角色,控制着细胞类型的决定、发育模式和特定途径控制(如免疫反应)的过程。
单细胞技术把视角拉到了单个细胞的研究精度,在研究单个细胞基因表达、轨迹发生、相互作用等的同时,细胞转录状态的变化也进入了研究者的目光。在复杂多变的细胞微环境中,受到外界刺激的细胞是如何通过转录因子调节基因表达,从而调整细胞的转录状态以适应新的环境,尤其在肿瘤微环境中转录状态的转变,成为了单细胞数据分析不可或缺的一环。对于单细胞数据转录因子分析,SCENIC[1]无疑是研究者的首选。当然,限于运行速度的关系,python版本的pyscenic也越来越多的投入到实际的运用中,本篇将从SCENIC软件着手,讲解单细胞研究中转录因子带来的生物学意义。
转录因子介绍
基因转录有正调控和负调控之分。如细菌基因的负调控机制是当一种阻遏蛋白(repressor protein)结合在受调控的基因上时,基因不表达;而从靶基因上去除阻遏蛋白后,RNA聚合酶识别受调控基因的启动子,使基因得以表达,这是正调控。这种阻遏蛋白是反式作用因子。而顺式作用因子则指的是基因上与反式作用因子结合的对基因表达起调控作用的基因序列。
定义
转录因子(transcription factor)是一群能与基因5`端上有特定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。
结合位点
转录因子的结合位点(transcription factor binding site,TFBS)是转录因子调节基因表达时,与mRNA结合的区域。按照常识,转录因子(transcription factor,TF)的结合位点一般应该分布在基因的前端,但是,新的研究发现,人21和22号染色体上,只有22%的转录因子结合位点分布在蛋白编码基因的5'端。
分类
真核生物在转录时往往需要多种蛋白质因子的协助。一种蛋白质是不是转录结构的一部分往往是通过体外系统看它是否是转录起始所必须的。一般可将这些转录所需的蛋白质分为三大类:
(1)RNA聚合酶的亚基
RNA聚合酶的亚基,它们是转录必须的,但并不对某一启动子有特异性。
(2)与RNA聚合酶结合形成起始复合物的
某些转录因子能与RNA聚合酶结合形成起始复合物,但不组成游离聚合酶的成分。这些因子可能是所有启动子起始转录所必须的,但亦可能仅是譬如说转录终止所必须的。但是,在这一类因子中,要严格区分开哪些是RNA聚合酶的亚基,哪些仅是辅助因子,是很困难的。
(3)仅与其靶启动子中的特异顺序结合
某些转录因子仅与其靶启动子中的特异序列结合。如果这些序列存在于启动子中,则这些顺式因子是一般转录结构的一部分。如果这些序列仅存在于某些种类的启动子中,则识别这序列的因子是在这些特异启动子上起始转录所必须的。
黑腹果蝇的RNA聚合酶需要至少两个转录因子方能起始转录。其中一个是B因子,它与含TATA盒的部位结合。人的因子TFⅡD亦和类似的部位结合。同样,CTF(CAAT结合因子)则与腺病毒的主要晚期启动子中与CAAT盒同源的部位相结合。结合在上游区的另一个转录因子是USF(亦称MLTF),则可以识别腺病毒晚期启动子中靠近-55的序列。转录因子Sp1则能和GC盒相结合。在SC40启动子中有多个GC盒,位于-70到-110之间,它们均能和Sp1相结合。然而含有GC盒的不同的DNA序列与Sp1的亲和力却各不相同。可见GC盒两侧的序列对Sp1-GC盒的结合情况究竟如何能影响转录。有时候需要几个转录因子才能起始转录。例如胞苷激酶的启动子需要Sp1与GC盒结合和CTF与CAAT盒结合;腺病毒晚期启动子需要TFⅡD与TATA盒结合和USF与其邻近部位相结合。以上所述的因子是一般转录都需要的,似乎并没有什么调节功能。另一些转录因子则可以调控一组特殊基因的转录。热休克基因就是一个很好的例子。真核生物的热休克基因在转录起始点的上游15bp处有一个特殊序列。HSTF因子仅在热休克细胞中有活性。它与包括热休克基因在内的一段DNA相结合,所以这个因子的激活可以引起约20个基因起始转录。在这里,转录因子和RNA聚合酶Ⅱ之间关系很类似细菌的σ因子与核心酶之间的关系。
转录因子是一种具有特殊结构、行使调控基因表达功能的蛋白质分子,也称为反式作用因子。植物中的转录因子分为二种,一种是非特异性转录因子,它们非选择性地调控基因的转录表达,如大麦 (Hordeum vulgare) 中的HvCBF2 (C-repeat/DRE binding factor 2) 。还有一种称为特异型转录因子,它们能够选择性调控某种或某些基因的转录表达。典型的转录因子含有DNA结合区 (DNA-binding domain)、转录调控区 (activation domain)、寡聚化位点(oligomerization site) 以及核定位信号 (nuclear localization signal) 等功能区域。这些功能区域决定转录因子的功能和特性。DNA结合区带共性的结构主要有:1)HTH 和 HLH 结构:由两段α-螺旋夹一段β-折叠构成,α-螺旋与β-折叠之间通过β-转角或成环连接,即螺旋-转角-螺旋结构和螺旋-环-螺旋结构。2)锌指结构: 多见于 TFIII A 和类固醇激素受体中,由一段富含半胱氨酸的多肽链构成。每四个半光氨酸残基或组氨酸残基螯合一分子 Zn2+ ,其余约 12-13 个残基则呈指样突出,刚好能嵌入 DNA 双螺旋的大沟中而与之相结合。3)亮氨酸拉链结构:多见于真核生物 DNA 结合蛋白的 C 端,与癌基因表达调控有关。由两段α - 螺旋平行排列构成,其α - 螺旋中存在每隔 7 个残基规律性排列的亮氨酸残基,亮氨酸侧链交替排列而呈拉链状,两条肽链呈钳状与 DNA 相结合。
转录调控区
同一家族的转录因子之间的区别主要在转录调控区。
转录调控区包括转录激活区 (transcription activation domain) 和转录抑制区 (transcription repression domain) 二种。近年来,转录的激活区被深入研究。它们一般包含DNA结合区之外的30-100个氨基酸残基,有时一个转录因子包含不止一个转录激活区。如控制植物储藏蛋白基因表达的VP1和PvALF转录因子,它们的N-末端酸性氨基酸保守序列都具有转录激活能力,与酵母转录因子GCN4和病毒转录因子的VP16的酸性氨基酸转录激活区有较高同源性。典型的植物转录因子激活区一般富含酸性氨基酸、脯氨酸或谷氨酰胺等,如GBF (G-box binding factor) 含有的GCB盒 (GBF conserved box) 激活结构域。
转录抑制区
也是转录因子调控表达的重要位点,但是对其作用机理研究尚不深入。可能的作用方式有三种:1)与启动子的调控位点结合,阻止其它转录因子的结合;2)作用于其它转录因子,抑制其它因子的作用;3)通过改变DNA的高级结构阻止转录的发生。
转录因子必须在核内作用,才能起到调控表达的目的。因此,转录因子上的核定位序列是其重要的组成部分。一般一个或多个核定位序列在转录因子中不规则分布,同时也存在不含核定位序列的转录因子,它们通过结合到其它转录因子上进入细胞核。核定位序列一般是转录因子中富含精氨酸和赖氨酸残基的区段。目前,水稻中的GT-2、西红柿中的HSFA1-2、玉米的O2和碗豆的PS-IAA4和6等转录因子中的核定位序列都已被鉴定。
绝大多数转录因子结合 DNA前需通过蛋白质-蛋白质相互作用形成二聚体或多聚体。所谓二聚体化就是指两分子单体通过一定的结构域结合成二聚体,它是转录因子结合DNA时最常见的形式。由同种分子形成的二聚体称同二聚体,异种分子间形成的二聚体称异二聚体。这种多聚体的形成是转录因子上的寡聚化位点 (oligomerization site) 相互作用的结果,寡聚化位点的氨基酸序列很保守,大多与DNA结合区相连并形成一定的空间构象。除二聚化或多聚化反应,还有一些调节蛋白不能直接结合DNA,而是通过蛋白质-蛋白质相互作用间接结合DNA,调节基因转录,这样就形成了一个表达调控的复合物。
转录因子的作用
是通过和顺式因子的互作来实现的。这段序列可以和转录因子的DNA结合域实现共价结合,从而对基因的表达起抑制或增强的作用。