taoziyu97 / PAWSASP

pancancer mutational signature association study program
1 stars 0 forks source link

【生存关联分析】 #5

Open taoziyu97 opened 4 years ago

taoziyu97 commented 4 years ago

这是我最终理想化的想要得到的数据形式。

微信图片_20200827160610

对TCGA,nonPCAWG,PCAWG/ICGC这三个数据来源的数据,各种癌症类型的cox回归以及KM生存分析进行批量处理,最终生成统计表格。这里我对TCGA的AML癌症类型的SBS先做了一个测试,其表格形式如下,在这里我根据COSMIC3的提示内容删除了artificial的signature,剩余共47种SBS。

  cancer type source scale HR P value CI upper CI lower var
SBS1 AML TCGA WES NA NA NA NA NA
SBS2 AML TCGA WES NA NA NA NA NA
SBS3 AML TCGA WES NA NA NA NA NA
SBS4 AML TCGA WES NA NA NA NA NA
SBS5 AML TCGA WES NA NA NA NA NA
SBS6 AML TCGA WES NA NA NA NA NA
taoziyu97 commented 4 years ago

结果发现出现空值情况如下: image

另外还有出现inf无穷值的情况

原因是没有针对这个癌症类型,去除这个癌症类型不存在的signature

taoziyu97 commented 4 years ago

根据昨天统计的不同数据库的所有包含的signature,使用分隔符“,”提取每个癌症独有的signature进行matrix构建,以及cox分析

或者

直接不管warning,把所有提示为NA存在的行进行去除即可,在多变量cox分析的时候再把提出来 image

最终构建一个列表,数据框中存列表,每个癌症类型都有一个cox分析的列表

taoziyu97 commented 4 years ago

【√】 TCGA的clinical单因素cox分析列表

taoziyu97 commented 4 years ago

PCAWG_clinical文件中包含有TCGA的clinical临床数据,用剩下的数据做PCAWG 数据来源的cox分析

taoziyu97 commented 4 years ago

? nonPCAWG的临床数据是不是没有

taoziyu97 commented 4 years ago

【√】PCAWG的clinical单因素cox分析列表