liupei101 / Pipeline-Processing-TCGA-Slides-for-MIL

This repo provides an exhaustive pipeline of processing TCGA whole-slide images for downstream multiple instance learning.
27 stars 7 forks source link

有关于TCGA数据集下载以及处理 #1

Closed SuperCewang closed 2 months ago

SuperCewang commented 3 months ago

现在TCGA下载的网站好像已经更新了,按照您第一个文件中的图片的过程好像找不到了,您可以更新一下如何下载并处理数据吗?十分感谢!

liupei101 commented 3 months ago

感谢您的关注和反馈。

TCGA GDC旧版网站是https://portal.gdc.cancer.gov/v1/ 。您可以访问该网站,并按照我们的教程下载并处理数据。

新版网站的相关操作将于近期更新。

SuperCewang commented 2 months ago

您好!我根据您提供的notebook处理完数据后有一个疑问,在我下载的tsv文件里好像并未包含之后DSCA代码中data_split.py所需TCGA_xxx_path_full.csv其中的e和t两个列数据,请问此数据我应该如何下载,或者是我之前所做的操作有何错误,请您指点!

liupei101 commented 2 months ago

TCGA官网没有提供TCGA_xxx_path_full.csv 文件,无法直接下载。这个文件里的et是我们自己计算出来的,依据了TCGA官网提供的clinical.tsv文件里这些列信息:[’case_id', 'case_submitter_id', 'days_to_death', 'vital_status', 'days_to_diagnosis', 'days_to_last_follow_up']。您可以依据这些列信息计算其他TCGA数据集的et信息。

DSCA代码库(https://github.com/liupei101/DSCA/tree/main/data_split)提供了我们计算好的三个数据集的XXXX_path_full.csv文件,包括NLST, TCGA-BRCA, 和TCGA-LGG。您可以直接使用它们。