Innse / MOTCat

39 stars 3 forks source link

TCGA上数据集的可用病例数量不同?以及WSI的下载问题 #6

Closed chenxinli001 closed 10 months ago

chenxinli001 commented 11 months ago

image image

Q1) 上面的是本文的数据集case, 下面是MCAT的,请问为什么会出现case数量不一致的情况呢?包括现在看TCGA,BLCA的case数量是412;如何解决这个不一致性?

Q2) 下载WSI的时候, 是选tissue slide or diagnostic slide or both? ![Uploading image.png…]()

chenxinli001 commented 11 months ago

image Q2) 下载WSI的时候, 是选tissue slide or diagnostic slide or both?

Innse commented 10 months ago

Q1) 我们不清楚MCAT的case数量是什么情况,我只能陈述我所使用的数据情况。例如BLCA,我们能从TCGA获得的case数量只有386 cases(应使用diagnostic),然后去掉tissue占比太小的case(用CLAM的默认设置),有基因数据配对的cases只有这么多

Q2) 应使用diagnostic slide

Innse commented 10 months ago

Q1) 我们不清楚MCAT的case数量是什么情况,我只能陈述我所使用的数据情况。例如BLCA,我们能从TCGA获得的case数量只有386 cases(应使用diagnostic),然后去掉tissue占比太小的case(用CLAM的默认设置),有基因数据配对的cases只有这么多

Q2) 应使用diagnostic slide

还去除了一些没有survival标签的cases

chenxinli001 commented 10 months ago

image 你好,大概全部数据集的slides加起来得有四五个T.... 这个scale是对的吧?

Innse commented 10 months ago

image 你好,大概全部数据集的slides加起来得有四五个T.... 这个scale是对的吧?

差不多,因为一张WSI大概1个G左右。