ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
118 stars 30 forks source link

oncoPredict:一个用于预测体内或癌症患者药物反应和细胞系筛查数据的生物标志物的R包 #3541

Closed ixxmu closed 1 year ago

ixxmu commented 1 year ago

https://mp.weixin.qq.com/s/8LevishPTS-wMEWWwwjzdQ

ixxmu commented 1 year ago

oncoPredict:一个用于预测体内或癌症患者药物反应和细胞系筛查数据的生物标志物的R包 by 生物信息云




权威的药物预测训练集资源一般就是Cancer Therapeutics Response Portal (CTRP) 和 Genomics of Drug Sensitivity in Cancer (GDSC)

  • Cancer Therapeutics Response Portal (CTRP)

目前主要是CTRP v2,网是:http://portals.broadinstitute.org/ctrp.v2.1/

  • 481 化合物 X 860 细胞系
  • 与拷贝数和基因表达数据的相关性
  • mutation data integrate CCLE and Sanger/MGH calls
  • correlation and enrichment analysis on-the-fly
  • box-whisker visualization in addition to enrichment heatmaps
  • drill-down to scatter plots and concentration-response curves
  • flter by lineage/subtype, growth mode


  • Genomics of Drug Sensitivity in Cancer (GDSC)

如果是v2的版本,有805种细胞系以及 198种化合物

如果是看v1版本,987种 和 367种化合

官网是:https://www.cancerrxgene.org/

我们这里直接使用R包oncoPredict整理好的这两个数据库的rdata文件,下载链接是:https://osf.io/c6tfx/files/osfstorage 

CTRP数据库里面的细胞系表达量矩阵是来自于转录组测序, 所以提供了 FPKM和TPM两个版本供用户选择。GDSC数据库里面的细胞系表达量矩阵应该是芯片,因为它使用了RMA Normalized and Log Transformed ,标准的芯片数据处理方法。

读入GDSC表达数据

dir = 'E:/DatabaseData/Drug/OSF/Training Data'GDSC2_Expr = readRDS(file = file.path(dir,'GDSC2_Expr (RMA Normalized and Log Transformed).rds'))dim(GDSC2_Expr)head(GDSC2_Expr)[,1:4]

读入药物的IC50数据:

GDSC2_Res = readRDS(file = file.path(dir,"GDSC2_Res.rds"))dim(GDSC2_Res)head(GDSC2_Res)[,1:4]

列名是药物名称,只不过加了一个编号。行名就是细胞。

GDSC2_Res <- exp(GDSC2_Res)

然后就可以参照前面我们介绍的基于CellMiner数据库的基因表达与药敏分析,进行探索基因表达与药物敏感之间的相关性了。我们这里重点介绍oncoPredict包的药物预测。

首先,我们需要有一个自己的表达数据。

testExpr <- GDSC2_Expr[,sample(1:ncol(GDSC2_Expr),20)]head(testExpr[,1:4] ) colnames(testExpr)=paste0('test',colnames(testExpr))dim(testExpr)

然后我们用GDSC的表达量矩阵和药物处理信息作为训练数据,这些数据交给R包 oncoPredict种的calcPhenotype函数就可以了,超级简单!

# install.packages("oncoPredict")library(oncoPredict)calcPhenotype(trainingExprData = GDSC2_Expr,              trainingPtype = GDSC2_Res,              testExprData = testExpr,              batchCorrect = 'eb',  #   "eb" for ComBat                powerTransformPhenotype = TRUE,              removeLowVaryingGenes = 0.2,              minNumSamples = 10,               printOutput = TRUE,               removeLowVaringGenesFrom = 'rawData')


B站视频合集


加入生信学习交流群



经    典    栏    目