Closed ixxmu closed 1 year ago
权威的药物预测训练集资源一般就是Cancer Therapeutics Response Portal (CTRP) 和 Genomics of Drug Sensitivity in Cancer (GDSC)
Cancer Therapeutics Response Portal (CTRP)
目前主要是CTRP v2,官网是:http://portals.broadinstitute.org/ctrp.v2.1/
Genomics of Drug Sensitivity in Cancer (GDSC)
如果是v2的版本,有805种细胞系以及 198种化合物
如果是看v1版本,987种 和 367种化合物
官网是:https://www.cancerrxgene.org/
我们这里直接使用R包oncoPredict整理好的这两个数据库的rdata文件,下载链接是:https://osf.io/c6tfx/files/osfstorage
CTRP数据库里面的细胞系表达量矩阵是来自于转录组测序, 所以提供了 FPKM和TPM两个版本供用户选择。GDSC数据库里面的细胞系表达量矩阵应该是芯片,因为它使用了RMA Normalized and Log Transformed ,标准的芯片数据处理方法。
读入GDSC表达数据
dir = 'E:/DatabaseData/Drug/OSF/Training Data'
GDSC2_Expr = readRDS(file = file.path(dir,'GDSC2_Expr (RMA Normalized and Log Transformed).rds'))
dim(GDSC2_Expr)
head(GDSC2_Expr)[,1:4]
读入药物的IC50数据:
GDSC2_Res = readRDS(file = file.path(dir,"GDSC2_Res.rds"))
dim(GDSC2_Res)
head(GDSC2_Res)[,1:4]
列名是药物名称,只不过加了一个编号。行名就是细胞。
GDSC2_Res <- exp(GDSC2_Res)
然后就可以参照前面我们介绍的基于CellMiner数据库的基因表达与药敏分析,进行探索基因表达与药物敏感之间的相关性了。我们这里重点介绍oncoPredict包的药物预测。
首先,我们需要有一个自己的表达数据。
testExpr <- GDSC2_Expr[,sample(1:ncol(GDSC2_Expr),20)]
head(testExpr[,1:4] )
colnames(testExpr)=paste0('test',colnames(testExpr))
dim(testExpr)
然后我们用GDSC的表达量矩阵和药物处理信息作为训练数据,这些数据交给R包 oncoPredict种的calcPhenotype函数就可以了,超级简单!
# install.packages("oncoPredict")
library(oncoPredict)
calcPhenotype(trainingExprData = GDSC2_Expr,
trainingPtype = GDSC2_Res,
testExprData = testExpr,
batchCorrect = 'eb', # "eb" for ComBat
powerTransformPhenotype = TRUE,
removeLowVaryingGenes = 0.2,
minNumSamples = 10,
printOutput = TRUE,
removeLowVaringGenesFrom = 'rawData')
B站视频合集
经 典 栏 目
https://mp.weixin.qq.com/s/8LevishPTS-wMEWWwwjzdQ