ShixiangWang / gcap

GCAP (Gene-level Circular Amplicon Prediction) firstly implements extrachromosomal DNA detection from whole-exome-sequencing (WES) data and absolute copy number profiles. https://shixiangwang.r-universe.dev/gcap
https://shixiangwang.github.io/gcap/
Other
15 stars 2 forks source link

过滤机制优化 #22

Closed ShixiangWang closed 2 years ago

ShixiangWang commented 2 years ago

对TCGA所有SNP的allele specific拷贝数数据进行分析,发现正常组织的ec样本和肿瘤的差不多。尝试增加阈值至少减少总数,正常和肿瘤的ecDNA+例数还是差不多。这违背了已知背景。

约1000例样本,其中~5000肿瘤。

> table(type = data_snp$sample_type, class = data_snp$class)
        class
type     circular noncircular possibly_circular
  normal     1560        1139               343
  tumor      1531        1236               341
> #https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
> table(type = substr(data_snp$sample, 14, 15), class = data_snp$class)
    class
type circular noncircular possibly_circular
  01     1465        1162               325
  02       12           8                 3
  03        0          10                 1
  05        0           1                 0
  06       54          55                12
  10     1345         964               297
  11      215         175                46
  12        0           0                 0
  14        0           0                 0

根据已有的经验,SNP array得到的拷贝数结果总体上比WES是更准确的。所以推测主要是TCGA已知血液正常样本存在质量问题,大部分血液正常样本的倍性都超过3。

> summary(test$ploidy)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.490   2.060   3.000   2.916   3.490   5.710 

image

另外TCGA芯片分析的结果本身也可能存在异常值。血液样本不少基因的拷贝数可以到100以上。

image

考虑优化过滤的机制看看能不能解决这个问题:

  1. 仅使用倍性在2左右的正常血液样本数据计算基因的背景拷贝数
  2. 增加一个T5值计算1中每个基因最高5个拷贝数的平均值,作为一个严格的背景拷贝数值参考。

试试看看先

ShixiangWang commented 2 years ago

https://github.com/ShixiangWang/gcap/blob/120babb122436db588304a3cdd455f68a3575c48/R/scoring.R#L89-L99

https://github.com/ShixiangWang/gcap-analysis/blob/main/modeling/00-germline-cnv.R