ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
105 stars 30 forks source link

利用转录因子构建调控网络“ 新星 ”:NetAct #3096

Closed ixxmu closed 1 year ago

ixxmu commented 1 year ago

https://mp.weixin.qq.com/s/gesTGoR5MaR3pImzrntJJA

ixxmu commented 1 year ago

利用转录因子构建调控网络“ 新星 ”:NetAct by 生信人

利用转录因子(TF)调控网络模型来分析生物动态过程,是系统生物学的一个经常被人研究的交叉领域。2003年,罗乔杜里实验组在PNAS发表了用矩阵分解的方法来估计转录因子相互作用强度,并在酵母DNA微阵列找到了细胞周期的调控网络。2016年,卡利法诺实验室在Nature Biotechnology发表了用基因表达推算出的调节子来计算蛋白活性,并利用mRNA转录组测序(RNA-seq)演算出人类 B 细胞转录调控网络。由此可见,通过高通量测序数据,构建出调控网络模型可以准确的映射出某些动态生物过程。



在该研究中,作者提出了NetAct统计模型:利用推算出来的基因活性来创建调控核心网络模型。在高通量数据集上,作者展示了NetAct创建的核心网络模型,成功分析了上皮细胞间质化(EMT)和巨噬细胞极化等生物模型。

背景介绍

在系统生物学中,创建核心网络调控来分析生物过程是一个很重要且流行的课题。大体上有两种方式连构建:一种是先创建小的网络基于现有的知识和数据库,在利用模拟器来完善网络,但是效率低没有办法用来构建新的网络模型。第二种是使用生物信息技术,特别是运用高通量测序(尤其是转录组测序因),来学习基因和基因的相关性,但是会忽略实际生物学意义上的调制关系。为了平衡这两种方法利弊,作者创建了NetAct统计平台,包括了三个亮点:通过过滤被调控的基因的组别,计算每个样本转录因子的活动(activity);利用计算出来的基因活动,来断定调控因素(调控方向:激活/抑制);再根据得到的核心调控网络通过模拟器实验,来决定最终的调控网络。

核心步骤解析

NetAct的流程图如下,主要有三个步骤:
1.从独自建立的包含TF-目标基因关系的综合集数据库找到有显著作用(差异表达)的TFs(图1:a)。作者借鉴了GSEA算法,并且利用自助抽样法(Bootstrapping)的精髓来找到关键的转录因子,这些转录因子是呈现差异表达的在对比实验的分组之中。

2.第二个步骤是计算转录因子的活性(图1:b)。对每一个找到的差异表达的转录因子,NetAct把其调控的靶向基因成员分成了两组对应激活/抑制两个调控方向。分组是运用了纽曼的社区发现算法(Newman’s community detection algorithm)来分组。进而再在得到的每一个分组中把非信息性的基因成员过滤掉。最后,在利用剩下的基因成员的表达量和调控方向,来推算(希尔方程)出转录因子的活动。这也是NetAct算法的核心。

3.基于算出来的转录因子的活动,NetAct利用互信息演算出核心的调控网络并且运用模拟器来核实推断出来的调控网络的动态性和准确性(图1:c)。

图 1:NetAct流程图。


主要成果

作者通过NetAct在一个时间序列的DNA微阵列(microarray)数据集上,成功的构建了乙型转化生长因子诱导的上皮细胞间质化(TGF-β-induced EMT)。整体来说,NetAct高亮选择的转录因子和利用RACIPE模拟器软件精确的解释了丛E态到M态的转移(图2:c)。在分析过程中的一个亮点是,计算出来的基因活性要比原来的基因表达量要更具有清晰的变化(图2:a)。作者发现这些被选出来转录因子大都是被TGF- β诱导所引起的变化,但也有像STAT1/3这样的链接其他细胞信号传送通路的比如HGF, PDGF, IGF1, 和FGR(图2:b)。另外,NetAct还找到了DNA损伤应答通路和细胞循环通路。

图 2: TGF-β 诱导的 EMT 的网络建模:使用时间序列微阵列数据将 NetAct 应用于人类细胞系的 EMT

作者还利用NetAct在时间序列的RNA-seq上来分析骨髓源性巨噬细胞。这是一个较为复杂的体系,其中包括干扰素-γ(IFNγ)诱导成为的M1状态和白细胞介素-4(IL4)诱导成为的M2状态,还有被这两种细胞因子共同影响的M状态。原来的基因表达量和计算出来的基因活性在低纬度上,都清晰展现了这三个状态(图:3b-c)作者利用了NetAct详细阐发了这三个状态的转化。有意思的是,作者发现Myc虽然在IL4和IL4+ IFNγ诱导的状态下呈现出高表达量,但是Myc的活动(activity)只是在IL4状态下比较高。再通过RACIPE来实验认证,作者惊奇的发现M态是介于M1和M2之间的一个光谱混合的一个状态(图3:e)。

图 3:巨噬细胞极化的网络建模。NetAct 在使用 RNA-seq 数据的小鼠中通过药物治疗诱导巨噬细胞极化的应用


其它成果

除此之外,作者还花大精力,利用机器学习(machine learning)和数据融合(data fusion)的思想,构建了两个完善的转录因子和被调控基因的数据库(对应人类/老鼠不同物种),可供给其他做相关网络调控学习的研究员。该数据库结合了现有的文献数据库包括TRRUST, RegNetwork, TFactS, and TRED,基因调控网络数据库(FONTOM5),调控因子结合目标数据库(比如ChEA 和TRANSFAC),和基序富集分析数据库(RcisTarget)。

参考文献:
1.Han, Heonjong, et al. "TRRUST: a reference database of human transcriptional regulatory interactions." Scientific reports 5.1 (2015): 1-11.
2.Subramanian, Aravind, et al. "Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles." Proceedings of the National Academy of Sciences 102.43 (2005): 15545-15550.


END

不想错过每天的热点和技术
欢迎大家添加生信人为星标推荐

撰稿  ▎苏有晴
排版  ▎小北

最新思路推荐
肿瘤免疫

细胞死亡

单细胞

m6A专题