Closed ixxmu closed 3 years ago
今天是生信星球陪你的第771天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于2021.1.4
想必大家都听过或者用过xena这个网站,我主要是利用它下载数据,链接在:https://xenabrowser.net/datapages/
其实它的网页工具做的也是非常的人性化,功能很多,而且不用自己下载数据,方便了不少同学。另外UCSC Xena 也有国内镜像:https://xena.hiplot.com.cn/
xena收集了来自各个癌症中心的数据,包括The Cancer Genome Atlas (TCGA), International Cancer Genome Consortium (ICGC), Genomic Data Commons (GDC), and UCSC RNA-seq compendium
(http://xena.ucsc.edu/public)
也正是因为这么大量数据的加持,xena可以完成 SNVs, INDELs, large structural variants, copy number variation, gene-, transcript-, exon-, miRNA-, LncRNA-, protein-expressions, DNA methylation, ATAC-seq signals, phenotypic annotations等等分析
分析的界面长下面这样:
右下角也标注了:
如果分析涉及了tumor与normal的比较,那么可以用TCGA TARGET GTEx
如果要查看非编码突变,可以用ICGC
的数据
另外,有一个有趣的功能就是:可以把自己分析完的数据保存为网页链接,分享给别人,打开可以跳转到你分析的结果
丰富的视频、PPT、文本资源尽在此:
https://ucsc-xena.gitbook.io/project/tutorials
https://ucsc-xena.gitbook.io/project/tutorials#advanced-slide-tutorial
某个基因的高表达与预后的关系?
自己定义的两个分组之间的生存存在差异吗?
某个基因在三种癌症类型的tumor与normal样本是不是存在差异表达?
某个基因的突变、拷贝数变异、基因表达量之间存在怎样的关系?
40种癌症类型,11000样本
主要是primary tumor,还有少量的normal和metastatic
数据类型主要有:somatic mutation、gene expression、copy number
生存及其他基础表型、临床数据(如年龄、亚型)
https://ocg.cancer.gov/programs/target
全称是:The Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
主要围绕儿童开展,包括以下项目,和TCGA类似都有转录组、WGS、WES、甲基化等:
Acute Lymphoblastic Leukemia
Acute Myeloid Leukemia
Kidney Tumors
Neuroblastoma 神经母细胞瘤
Osteosarcoma 骨肉瘤
Pan-cancer Model Systems
GTEx全称Genotype-Tissue Expression,存储了正常组织的表达量数据
https://dcc.icgc.org/
ICGC 全称International Cancer Genome Consortium(国际癌症基因组联盟),有亚洲、澳大利亚、欧洲、北美和南美的数据
https://dcc.icgc.org/pcawg
全称是:Pan-Cancer Analysis of Whole Genomes(泛癌全基因组分析),是TCGA工作人员利用TCGA数据当中的WGS数据进行的分析,有2700多个样本供体
https://portals.broadinstitute.org/ccle
Cancer Cell Line Encyclopedia(癌症细胞系百科全书),有各个人种肿瘤细胞系的WES数据,WGS数据,RNAseq数据,扩增子数据。可以找基因表达变化、突变、indels、拷贝数变异、甲基化、药物反应等等。目前已有1,457个 细胞系,涉及84,434个基因
https://met500.path.med.umich.edu/
主要是研究转移癌
未来还会加入蛋白组学的数据 ,来自:Clinical Proteomic Tumor Analysis Consortium (CPTAC)
DNA测序得到,主要包括:snv、indel这样的小型突变,对蛋白质的影响主要表现在:
沉默突变 Silent:不改变蛋白质
错义突变 Missense:一个氨基酸被另一个氨基酸取代
剪切位点突变 Splice-site:干扰剪切过程
有害突变 Deleterious:无义突变(nonsense)、移码突变(frameshift)
无义突变:单个碱基的替换引起出现了终止密码子,从而提前终止了多肽链的合成
移码突变:在一条DNA链上缺失或者插入1个、2个或者其他非3个及其整数倍的碱基,就会引起作用部位之后的密码子的组成及顺序发生变化,从而导致终止码提前或者延后
DNA测序得到,也是体细胞突变。主要分为扩增(amplification)和缺失(deletion)
RNA测序得到,主要有转录本层面、基因层面、外显子层面、编码蛋白基因层面、非编码RNA层面
需要注意批次效应(由于实验方法、文库制备、分析方法等等产生),因此在比较不同数据集时要当心
不是所有的样本都有全部的测序数据,比如某种癌症的某个样本某种测序质量差、文库制备出了问题,它就会缺失这种测序结果
首先是:TCGA PanCan Atlas,它采用的是TCGA最高质量的数据,采用了统一的pipeline进行分析,大大减小了系统误差;附带了一些衍生数据,比如stemness score、immuno subtype;另外它的生存数据也是经过人工核验的;比对过程是比对到了2006 genome (hg19);在xena中的名称是:TCGA Pan-Cancer (PANCAN);适用于:全新的分析
其次是:GDC TCGA data,它也是统一分析,数据来自Genomic Data Commons(GDC);比对到了2013 genome(hg38);没有其他衍生数据,只是level3的基因组数据;在xena中的名称是:GDC xxx,如 GDC TCGA Bile Duct Cancer (CHOL);适用于:单个癌症(不想从pan cancer数据取子集)或者需要hg38版本的数据
最后是:最原始的TCGA data ,TCGA官方放出来的原始数据;大部分是比对到hg19,但也有比对到hg18的;在xena中的名称是:TCGA xxx,如TCGA Bile Duct Cancer(CHOL);适用于:需要外显子表达量的分析或者需要重复一些早期的工作
xena的可视化逻辑就像是excel表格一样,一列一列把癌症样本、想要分析的数据类型、基因等等加载进来
10-35%的肺癌病人中会存在EGFR基因的异常(突变或扩增)
在女性中最常见
EGFR抑制剂目前在临床上已经应用,比如EGFR酪氨酸激酶抑制剂(EGFRTKI)(例如埃罗替尼和吉非替尼)就是一类EGFR阻断药物,在治疗EGFR突变的肺癌中是有效的。目前前三代都出现了抗药问题,来自纪念斯隆-凯特琳癌症中心的研究显示,奥希替尼的初治和后线治疗展现了不同的耐药谱
(https://med.sina.cn/article_detail_103_2_90349.html)
加载进来后,看到每一行表示一个样本
B列的每一行也是和A保持一致。null表示该样本没有数据,显示灰色
C列中,突变位点就是其中的散点,不同颜色表示不同突变影响
默认只能加三列,此时需要点击Click to Add Column
来增加。红色是扩增,蓝色是缺失
思路是:
step1- 去掉空值(Null)的样本
step2- 分组,一组有突变,一组没有
step3- 做生存分析
xena样本过滤小技巧:
step1: 过滤条件为!=null
,过滤完空值的样本,剩下508个
step2: 怎么定义EGFR异常呢?
根据上图看到,EGFR的异常(Aberration)可以包括:
mutation:missense OR inframe deletion
copy number:copy number gain
因此过滤条件就是:(mis OR infra) OR D:>0.5
step3:怎么做生存分析呢?
选择KM plot下面的👇那个Chart & Statistics
,把X、Y轴设置一下就ok
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步
🤓生信星球 🌎~ 一个不拽术语、通俗易懂的生信知识平台
https://mp.weixin.qq.com/s/kyYdjbtTZOGQEFZZ1TLX_w