ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
106 stars 30 forks source link

刚发的这篇NC教你如何挖掘“新版TCGA”数据 #270

Closed ixxmu closed 4 years ago

ixxmu commented 4 years ago

https://mp.weixin.qq.com/s/GD5YS-in-6KIFcyHIW0kHw

github-actions[bot] commented 4 years ago

刚发的这篇NC教你如何挖掘“新版TCGA”数据 by 优雅R

     大家好,今天和大家分享的是七月份发表在Nat Commun(IF:12.121)的一篇文章,“A user guide for the online exploration and visualization of PCAWG data”,本文作者向我们介绍了可以分析、可视化PCAWG数据的5个数据库,并给出了单独使用时的例子以及联合分析的例子供读者学习,便于读者更好的利用这些数据库分析PCAWG数据。下面我们一起看一下吧!


A user guide for the online exploration and visualization of PCAWG data

在线探索和可视化PCAWG数据的使用者指南



一.文章背景

  PCAWG项目(The Pan-Cancer Analysis of Whole Genomes)带来了覆盖38种癌症的2658个样本的全基因组测序数据(WGS),同时有5个在线分析、可视化数据的网页工具、数据库可以方便研究者利用PCAWG数据。本文作者向我们介绍了这5个数据库,并给出了例子,方便我们更好地利用它们 。


二. 文章思路

三. 结果解读

在解读之前我们先看看作者给出的5个数据库的功能总览,每个数据库在PCAWG数据的搜索、分析、可视化、下载方面都各有各自的特长,也有功能重叠的部分,这也说明联合这些数据库的功能,才能最大程度的探索PCAWG数据

表1.数据库功能总览


1.ICGC Data Portal和实例

ICGC Data Portal:https://dcc.icgc.org

ICGC(International Cancer Genome Consrtium)数据库作为一个主要的入口处,为研究者浏览、搜索以及可视化PCAWG数据提供了一个直观的图形界面。PCAWG数据中超过7万个序列BAM文件以及变异召回(variant calling)的VCF文件,可以在ICGC数据库中集中搜索。此外还有PCAWG数据中将近23百万个公开的体细胞突变,注释的有改变后的蛋白质结构、受影响的通路、癌症药物的靶点、相关的GO terms以及临床参数。使用者可以用鼠标选择不同的条目来缩小搜索范围,以此快速准确的找到自己感兴趣的数据

  • 高级搜索工具可以满足使用者更复杂的需求,比如想要探索二期肝癌中突变最频繁的药物靶点。最后得到的结果如下图红框部分,只要按自己的需求在1部分勾选搜索即可得到自己想要的数据,搜索的式子呈现在2中,而所有突变的详细信息则在下方表格中呈现

图1.ICGC数据库高级搜索


  • ICGC数据库中还包括Jupyter Notebook sandbox在内的分析工具,支持探索分子异常与患者表型间的潜在联系,但是此工具需要申请许可。除此之外ICGC数据库还提供4类工具,可以对选中的某样本中发生突变的基因做富集分析,对两组样本进行比较分析(预后、年龄等),寻找几组样本、基因集或突变集的交集,可视化一组样本中受突变影响的基因(OncoGrid)


图2.ICGC数据库中的分析工具


2.UCSC Xena数据库及实例

UCSC Xena:https://pcawg.xenahubs.net

 UCSC Xena数据库简洁的可视化、高速的操作以及灵活的数据格式可以让PCAWG的数据在研究者手中发挥更强大力量。Xena数据库擅长整合多类型的PCAWG数据,像是整合一组样本中常见的突变信息,基因表达水平,融合基因,或是少见的可变剪切事件,可变启动子等等。此外XENA数据库还可以将使用者自己的数据与数据库中的数据整合分析、可视化。只需要安装Local Xena Hub跟着教程来即可(数据并未上传,仍在本地受到保护)

  • 下图作者给了个例子展示了在XENA中探索基因TERT的变异情况。包括公共数据(绿框下)和本地上传的私人数据(红框下)都被展示。发生在基因TERT上的SNV以及SV都被整合在内,从XENA给出的图B中看出不同类型癌在TERT处发生的突变类型有显著差异

图3.XENA数据库使用实例


3.Chromothripsis Explorer及实例

The Chromothripsis Explorer:http://compbio.med.harvard.edu/chromothripsis/

The Chromothripsis Explorer数据库是一个开源的Shiny工具,可以用于可视化WGS数据中发现的Chromothripsis现象。它提供了每种癌的交互式的Circos图(D),让研究者可以探索像是染色臂的缺失在内的大规模变异,或像是Chromothripsis、Chromoplexy在内的复杂的突变模式。此外还可以观察一定限制条件下,PCAWG项目中各癌症中Chromothripsis发生率(A);癌症Chromothripsis发生于拷贝数的关系,肿瘤纯的和倍性的关系(B);按条件搜索感兴趣的样本(C)


  • A:第一个功能,观察PCAWG项目中各类癌中Chromothripsis现象的发生率。左侧可以更改判定样本发生Chromothripsis的cut-off

图4.Chromothripsis Explorer 一


  • B:第二个功能,左图观察癌症染色体上参与到Chromothripsis中的SVs的比例与拷贝数的关系,右图可以观察癌症纯度和倍性的关系。每个圆表示一个样本,不同类型的癌用不同颜色标记,圆的大小表示该样本中SVs占该类癌中所有SVs的比例,可以选择观察几号染色体上的情况

图5.Chromothripsis Explorer 二


  • C:第三个功能,可以按自己的需求寻找自己感兴趣的PCAWG项目中的样本,只需按下方的表格填写条件进行筛选即可

图6.Chromothripsis Explorer 三


  • D:第四个功能,得到某一癌症样本染色体上突变的交互式的Circos图,可以包含样本各染色体上发生的SNVs、indels、CNV、LOH、SV信息。下图是一个胰腺癌样本的例子,左侧可以选择Circos图要展示的细节

图7.Chromothripsis Explorer 四


4.Expression Atlas及实例

Expression Atlas:https://www.ebi.ac.uk/gxa/experiments/E-MTAB-5200/

       Expression Atlas提供有关RNA-Seq和微阵列研究的基因表达模式以及蛋白质组学研究的蛋白质表达的信息,是一个可以让用户获取特定基因在不同组织、细胞类型、数据库、疾病、发育阶段中表达量的数据库。该数据库支持两种类型的实验设计:

  • Baseline studies:根据组织类型、发育阶段、细胞系、癌症类型或其他因素对基因进行定量,查看基因在“正常”情况下的表达量

  • Differential studies:在不同实验条件下比较基因表达量的变化,如疾病组织 vs 健康组织

       除了PCAWG数据集外,该数据库还从ArrayExpress,GEO,ENA,GTEx等数据库中选取基因表达量方面的研究,经进一步整理和处理后呈现给使用者。目前该数据库提供来自超过60种器官的,超过3500个实验,约12万种方法的结果。此外该数据库覆盖了超过100中细胞类型(Cell Ontology),大于700种疾病(Experimental Factor Ontology,EFO)

实例演示

  • A:我们可以通过输入一个基因、基因集或实验条件进行搜索,下面以基因SFTPA2为例

图8.Expression Atlas、一


  • B:SFTPA2在不同条件下(过滤当中),基因在不同来源的转录组表达量(黄色圆圈)、蛋白质表达量(绿色圆圈)通过热图的形式呈现。可以看见大多来源数据中都显示SFTPA2在肺组织中高表达

  • C:通过在过滤选项中选择individuals,就可以看见该基因在PCAWG各项目的样本中表达水平,单击一个项目可以更详细的观察

图9.Expression Atlas、二


  • D:也可以直接搜索PCAWG项目,再选择感兴趣的基因和疾病,将基因SFTPA2在PCAWG中的表达量与GTEx以及癌旁正常组织中的表达量作比较。可以发现无论是在肺鳞癌还是在肺腺癌当中,SFTPA2的表达量都要比正常组织中小(浅蓝色部分,与上图结果一致)

图10.探索Expression Atlas 中PCAWG数据


  • E:通过选择Differential expressio,比较其它实验中SFTPA2在肺癌组织中的表达量发现,SFTPA2在肺癌中低表达

图11.Expression Atlas、三


5.PCAWG-Scout及实例

PCAWG-Scout:http://pcawgscout.bsc.es/

PCAWG-Scout是研究者分析PCAWG数据最佳的网页平台,其分析是基于开放的PCAWG数据(ICGC数据库中可下载),以及PCAWG项目小组的研究结果(驱动突变、突变特征等,被整合到了PCAWG-Scout的报告、图表当中)。PCAWG-Scout以报告的形式输出数据分析以及可视化结果。报告内包含了描述、数据、图、交互式的3D蛋白质结构图以及网络图。此外报告还提供额外的分析选项,如基因差异表达分析,基因集的富集分析,预测队列的驱动突变,对一组样本生存分析,给出疾病个体可能的的治疗建议等

下面给出操作实例

  • A:我们选择要分析的CNS_tumors

图12.PCAWG-Scout、一


  • B:接上一步,拉到页面底部,选择Gene report,输入我们想要了解的基因IDH1后提交。之后得到样本中关于IDH1的报告,我们点击22个受影响的样本

图13.PCAWG-Scout、二


  • C:同样拉至底部,我们可以选择对IDH1突变/非突变组进行差异分析(也可以选择生存分析等)。提交后下拉可得到基因差异分析报告以及富集分析的结果

图14.PCAWG-Scout、三


  • D:我们选择所有基因的报告下的column项,选择保存"t.value"的map。在弹出框中我们可以对要保存的Map改名字、排序等操作。点击蓝色链接,在弹出框中我们对该Map加星标,这样就可以在后续分析时在Maps中直接找到

图15.PCAWG-Scout、四


以上以保存有无IDH1突变样本在CNS_tumors中差异分析结果的“t.value”的Map为例,后续作者还保存了样本 ‘donor_survival_time’的Map,‘Gene damage bias’ 分析结果中的“p.value”。之后作者根据这些信息对CNS_tumors的驱动突变事件网络图进行注释

  • E:在Aesthetics中即可对网络的节点、边,圆圈的形状、大小、颜色做改变。只要在map框中选择我们之前保存的maps,如基因差异分析时基因对应的t.value,就可以俺大小、颜色、宽度改变我们选择的特征

图16.PCAWG-Scout 五


  • F:下图是作者对CNS_tumors的驱动事件图经注释后的结果。六边形代表样本,圆形代表基因。绿色边表示关系已证实,橙色表示关系为预测。样本六边形边的厚度表示生存时间,基因的大小表示‘Gene damage bias’ 的结果,基因的颜色表示差异分析的结果。

  • 本例中可以看出发生在IDH1、TP53、DDX3X上的突变有着比预期更高的危害(大小)

图17.PCAWG 网络分析


6.多种工具联合使用

联合以上几种工具的强项,可以对癌生物学有更深层次的理解。作者以前列腺癌中常见的驱动事件--ERG融合基因的出现为例,展示如何用以上5种数据库进行联合分析

  • A:先从XENA数据库中观察PCAWG项目中存在ERG融合基因的样本,可见在18个(都由WGS和RNA-seq数据)前列腺癌样本中,有8个样本存在ERG融合基因,他们也表现出ERG过表达(B框)。从D-F框ERG结构突变的模式也可看出,这些样本的融合断裂点都位于ERG的转录起始位点,从而使ERG的编码区保持完整被融合到了TMPRSS2或SLC45A3的启动子区域。此外,发现C框RNA-seq和D框WGS得到的样本融合基因检测结果不一致,双方各有一个融合基因在对方的结果中未被发现

图18.联合分析 XENA


  • B:作者发现8个有ERG融合基因的前列腺癌样本间,CNV和SV的变异模式有很大不同。样本DO36283的基因组就表现出复杂的核型。如图所示,21号染色体上有大量SVs与自身以及2、9、13号染色体相联系。放大观察21号染色体发现,片段chr21:39,988,805–40,578,907处的缺失引起了ERG-TMPRSS2融合基因的产生

图19.联合分析 Chromothripsis Explorer


  • C:在Expression Atlas中发现两个基因在在正常前列腺组织和前列腺癌中高表达

图20.联合分析 Expression Atlas


  • D:通过在PCAWG-Scout中对有无ERG融合基因的样本进行比较(mutual exclusivity analysis),在没有ERG融合基因的样本中,FOXA1、SPOP和SYNE1基因上发生的突变显著高于有ERG融合基因的样本。通过下方SPOP蛋白的3D结构图发现,前列腺癌中发生在SPOP上的突变聚集在其与PTEN相互作用的位点,说明这些突变可能引起SPOP蛋白的功能变异

图21.联合分析 PCAWG-Scout


本文先是逐个介绍了5种可以下载、分析、可视化PCAWG数据的在线数据库网站,并给出操作实例。之后以前列腺癌中有ERG融合基因的样本为例子,向我们展示了如何联合5种数据库对此类样本进行联合分析。此例中作者从UCSC XENA数据库开始,但是我们在实际操作过程中我们可以从任意一个数据库中开始,对我们感兴趣的队列、基因等进一步研究。

最后,如果各位想要利用好PCAWG数据,那么对这5种数据库的熟练使用是必不可少的,大家可以以本文为引子,自己去探索它们更多的功能,更好地将PCAWG数据应用到自己的研究当中。那么我们下期再会!


文末友情推荐

要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160 。如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:

如果你课题涉及到转录组,欢迎添加一对一客服:详见:你还在花三五万做一个单细胞转录组吗?