Closed ixxmu closed 2 years ago
希望每个实习生和学徒都可以在生信技能树的舞台分享自己的学习经验,群策群力,把生物信息学的光辉照耀到生命科学领域的每一个角落。
转录因子(Transcription Factors, TFs) :能够以序列特异性方式结合 DNA 并且调节转录的蛋白质
转录因子结合位点(TFBS transcription factor binding site):TF特异结合的DNA分子
Motif:指构成任何一种特征序列的基本结构,其实就是指有规律的结合位点
可以是基因组DNA序列 or RNA序列 or 蛋白质序列,只要存在大量重复出现相同的序列,有探索它意义的价值,就可以称之为motif
所以
在探索转录因子结合 DNA情况时,Motif就指多个有规律的TFBS
logo图如下
但是,究竟背后如何形成呢?
多个有规律的TFBS→ motif
a:多个有规律的TFBS
b:consensus sequence一致性序列,通过简并碱基符号对应表将所有TFBS合并成一列(例如Y:C/T,H:A/T/C)
c,d:对应碱基的频率(例如碱基A在第三个位置出现2次,在第四个位置出现过7次)
e:根据公式,将高度调成以bits为单位
可看看下面这篇文献
🍥Single-cell RNA sequencing highlights the role of inflammatory cancer-associated fibroblasts in bladder urothelial carcinoma
单细胞RNA测序样本:8个膀胱癌肿瘤样本和3个癌旁样本
首先第一次分群:
对52,721个单细胞进行细胞类型鉴定,共鉴定出8个细胞类群,分别是上皮细胞;内皮细胞;两种类型的成纤维细胞iCAFs、mCAFs;B细胞;髓系细胞;T细胞;以及肥大细胞
对两类成纤维细胞再次聚类分析,求差异基因,并进行GO,GSEA富集分析
因为上游多个转录因子(transcription factor,TF)调控靶基因的转录表达,从而最终影响生物表型的改变和生理或病理过程的发生
因此,作者通过SCENIC分析,发现MEF2D和MEF2C是mCAF特异的基序motif,在肌肉线条的转录调控中具有重要的作用。而TCF21和TWIST2 motifs 在iCAF中高度激活,TCF21与冠心病有关,能够增强平滑肌细胞的“纤维肌细胞”表型
这两个图就是SCENIC结果
第一个是热图,可以猜想到最后会得到一个矩阵:纵坐标为细胞,横坐标是转录因子,表达量为AUC值,衡量转录因子的调控活性
第二个是tSNE图,上方是表达量,下方是AUC值。可以找到规律:表达量越高(越红),一般AUC值也越高(越黄)
软件目前配置了人、小鼠、果蝇数据库
输入文件:
行:基因
列:细胞
GENIE3 (GEne Network Inference with Ensemble of trees)
通过GENIE3(随机森林) 或GRNBoost (Gradient Boosting)的方法,推导出TF-genes共表达网络(一个TF对应多个gene)
只是基于相关关系求出网络,所以会存在一些假阳性的结果(即某基因不是TF的靶点)
接下来
主要从TF功能结构入手,因为TF是通过motif序列直接与DNA结合而发挥作用的
因此可以反向查看gene上是否存在motif序列来验证靶向关系
例如图b中基因上标黄色,绿色为不同的motif
最后在共表达网络中,识别出实际相互作用的TF-genes(称为regulons)
该软件运行必备两个数据库:1)gene-motif排名数据库:为每个motif提供所有gene的排名(~分数);2)motif-TF注释数据库:对每一个motif注释其所对应的TF
上面两步我们已经得出多个TF-genes(称为调节子regulons)
那怎么知道定量TF的活性呢?
这里就需要用AUC值来衡量
这里的计算方法有点像ssGSEA
原理:
横坐标:针对每个细胞,首先根据表达值对基因从高到低进行排序(rank),表达值相同的基因随机赋予顺序,然后用rank值代替表达值进行后续分析(感觉有点类似非参数秩和的赋值)
纵坐标:基因集。即在SCENIC中,即Regulons中所有基因
Regulons在细胞中的活性:恢复曲线(recovery curve)下的面积AUC
上图比较好理解,如果某细胞有500个基因,恰好表达量前250都在该Regulons中,则该Regulons在细胞中的活性为30
这样就可以推算出所以细胞的Regulons活性
但
如果是不连续的基因呢?
下面这个图挺有意思的,来自于[公众号:一只细胞]
分别是第1,5,7个基因和前三个基因在Regulons中
可以推断Regulons中的基因表达量越高,调控活性越高
算出活性值还没有结束哦
由于不同regulons包含的基因不同,它们之间的AUC值不具有可比较性,因此基于AUC值在所有细胞中的双峰分布特征,增加了Regulons“on/off”的概念,设置阈值
如果AUC值小于阈值,则判定为该Regulons在该细胞中未开放,即未发挥调控作用。最终获得每个Regulons在每个细胞中的开放性热图
这样就可以识别出哪些细胞具有更显著高的regulon活性
参考:
[1] The Human Transcription Factors - ScienceDirect
https://www.sciencedirect.com/science/article/pii/S0092867418301065
[2] Plot DNA sequence motif — MotifPlot • Signac (satijalab.org)
https://satijalab.org/signac/reference/motifplot
[3] What are DNA sequence motifs? | Nature Biotechnology
https://www.nature.com/articles/nbt0406-423
[4] 说了那么久的motif到底是什么 | RIP专题 - 知乎 (zhihu.com)
https://zhuanlan.zhihu.com/p/428416814
[5] RcisTarget || 从基因列表到调控网络 - 简书 (jianshu.com)
https://www.jianshu.com/p/6e1d71db4220
[6] 单细胞分析十八般武艺16:AUCell (qq.com)
https://mp.weixin.qq.com/s/6J3APp08oPYvQxrBCkyG_A
[7] 使用AUCell包的AUCell_calcAUC函数计算每个细胞的每个基因集的活性程度 (qq.com)
https://mp.weixin.qq.com/s/dPMW955Eenei_76rASev7g
[8] 10X单细胞数据分析转录因子的前世今生---scenic - 简书 (jianshu.com)
https://www.jianshu.com/p/00fb626451b5
[9] 单细胞转录因子分析利器——SCENIC软件(原理详解)
https://mp.weixin.qq.com/s/AJmVF1mRYQcuG73iKmkWQg
[10] SCENIC | 以single-cell RNA-seq数据推断基因调控网络和细胞功能聚类
https://mp.weixin.qq.com/s/gLY0ZpLCMU4RsXUcRkuh9w
[11] 单细胞转录组高级分析二:转录调控网络分析
https://mp.weixin.qq.com/s/eOtnQOUTirZ-FUBD4ekyOQ
✦✦
Don't forget to Subscribe, Follow,
Like & Share !
YuYuFiSH
邮箱:chenyu_202000@163.com
https://mp.weixin.qq.com/s/Nei0u0ocO3YVS3MM8GuvGw