Open taoziyu97 opened 4 years ago
结果发现出现空值情况如下:
另外还有出现inf无穷值的情况
原因是没有针对这个癌症类型,去除这个癌症类型不存在的signature
根据昨天统计的不同数据库的所有包含的signature,使用分隔符“,”提取每个癌症独有的signature进行matrix构建,以及cox分析
或者
直接不管warning,把所有提示为NA存在的行进行去除即可,在多变量cox分析的时候再把提出来
最终构建一个列表,数据框中存列表,每个癌症类型都有一个cox分析的列表
【√】 TCGA的clinical单因素cox分析列表
PCAWG_clinical文件中包含有TCGA的clinical临床数据,用剩下的数据做PCAWG 数据来源的cox分析
【√】PCAWG的clinical单因素cox分析列表
这是我最终理想化的想要得到的数据形式。
对TCGA,nonPCAWG,PCAWG/ICGC这三个数据来源的数据,各种癌症类型的cox回归以及KM生存分析进行批量处理,最终生成统计表格。这里我对TCGA的AML癌症类型的SBS先做了一个测试,其表格形式如下,在这里我根据COSMIC3的提示内容删除了artificial的signature,剩余共47种SBS。