Closed SuperCewang closed 2 months ago
感谢您的关注和反馈。
TCGA GDC旧版网站是https://portal.gdc.cancer.gov/v1/ 。您可以访问该网站,并按照我们的教程下载并处理数据。
新版网站的相关操作将于近期更新。
您好!我根据您提供的notebook处理完数据后有一个疑问,在我下载的tsv文件里好像并未包含之后DSCA代码中data_split.py所需TCGA_xxx_path_full.csv其中的e和t两个列数据,请问此数据我应该如何下载,或者是我之前所做的操作有何错误,请您指点!
TCGA官网没有提供TCGA_xxx_path_full.csv
文件,无法直接下载。这个文件里的e
和t
是我们自己计算出来的,依据了TCGA官网提供的clinical.tsv
文件里这些列信息:[’case_id', 'case_submitter_id', 'days_to_death', 'vital_status', 'days_to_diagnosis', 'days_to_last_follow_up']
。您可以依据这些列信息计算其他TCGA数据集的e
和t
信息。
DSCA代码库(https://github.com/liupei101/DSCA/tree/main/data_split
)提供了我们计算好的三个数据集的XXXX_path_full.csv
文件,包括NLST, TCGA-BRCA, 和TCGA-LGG。您可以直接使用它们。
现在TCGA下载的网站好像已经更新了,按照您第一个文件中的图片的过程好像找不到了,您可以更新一下如何下载并处理数据吗?十分感谢!