ShixiangWang / MessageBoard

诗翔的留言板,用于博客评论和交流
5 stars 2 forks source link

TCGA提取出突变基因的数据 #43

Closed zhaoliang0302 closed 5 years ago

zhaoliang0302 commented 5 years ago

翔哥你好, 我做多因素cox回归时想把某个基因是否突变(如IDH1)纳入变量中,但是我不知道怎么从somatic mutation中提取出突变与否的sample,请翔哥指点,谢谢你

ShixiangWang commented 5 years ago

一个抓TP53的例子

data %>% 
    group_by(Tumor_Sample_Barcode) %>% 
    summarise(hasTP53 = case_when(
        any(grepl("^TP53$", Hugo_Symbol)) ~ "Yes",
        TRUE ~ "No"
    )
zhaoliang0302 commented 5 years ago

我是xena下载的MuTect2 Variant Aggregation and Masking数据(https://xenabrowser.net/datapages/?cohort=GDC%20TCGA%20Glioblastoma%20(GBM)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443),你的代码是不是只要gene这一列出现的gene就是突变的,把这个sample提取出来image

ShixiangWang commented 5 years ago

@zhaoliang0302 是的,只要一个样本出现突变,不管是一次还是多次都标记Yes。当然你自己可以加一些更严格的限制,比如说非同义突变才算有意的突变,这个你在case_when函数里面可以补充逻辑判断。

不是把Sample提取出来,是所有的sample都进行标记,至少有一次某基因突变标Yes,其他标No