Closed ixxmu closed 3 years ago
最近读文献, 看到了一个有意思的文章,发表在 Nat Commun . 2021 Jan 的文章:《Global computational alignment of tumor and cell line transcriptional profiles 》提到了一个工具,Cellinger,链接是:https://www.nature.com/articles/s41467-020-20294-x
本来呢,我是想介绍这个工具,Cellinger,他可以帮助我们挑选合适的癌症细胞系模型。但是我在读文献的过程,发现了另外一个有意思的点,就是把单细胞数据处理的各个工具算法,应用到了传统的转录组表达量矩阵,就是TCGA和CCLE的表达量矩阵。
下载方式,以及各个数据库的样本量,基因数量,都如下所示:
提到的xena数据库下载tcga的全部癌症样品的表达量矩阵,然后是DepMap数据库下载CCLE的全部表达矩阵,最后两个矩阵仅仅是取了蛋白编码基因。
材料和方法如下所示 :
大名鼎鼎的seurat无需我多介绍了,更新速度之快,咱们《单细胞天地》的主力小编周运来在《生信菜鸟团》单独开辟了一个专栏,都给它更新了两个月了:
(不要问我为什么《单细胞天地》的主力小编周运来为什么会在《生信菜鸟团》发笔记,而且还是由我在《生信技能树》公布这一新闻!)
另外,文献里面提到了MNN,其实来源于scran这个R包,而scran的介绍就比较少,我们介绍最多的是Cell cycle phase assignment功能,也就是推断细胞周期。要学好它,就是掌握使用scran包的SingleCellExperiment函数即可构建SingleCellExperiment对象。其实多个样本单细胞转录组数据整合算法以 mutual nearest neighbors (MNNs)和canonical correlation analysis (CCA) 最为出名,见 详细介绍多个单细胞转录组样本的数据整合之CCA-Seurat包 ,但是scran包的 mutual nearest neighbors (MNNs)方法中文介绍确实不多,而且我觉得其实主要就是读文档而已:https://bioconductor.org/packages/release/bioc/vignettes/scran/inst/doc/scran.html
如下所示,TCGA和CCLE的表达量矩阵的差异非常大 :
a A 2D projection of combined, uncorrected cell line and tumor expression data using UMAP (n = 1,249 cell lines, n = 12,236 tumors).
使用scran包的 mutual nearest neighbors (MNNs)方法,整合了TCGA和CCLE的表达量矩阵后,可以看到这个时候两个数据库的差异基本上被抹平了,各个样品主要是按照癌症或者组织类型的差异来区分远近距离啦。
Fig. 2 Celligner alignment of tumor and cell line samples. UMAP 2D projection of Celligner- aligned tumor and cell line expression data colored by annotated cancer lineage. The alignment includes 12,236 tumor samples and 1,249 cell lines, across 37 cancer types.
https://github.com/broadinstitute/Celligner_ms
我看了看,文章里面的每个主图和附图的绘图方式都有,值得follow,如果你足够努力,甚至可以基于这个文献的代码开一个公众号,写个几百篇笔记!
开设自己的公众号,学习这篇文章的代码,尝试写自己的笔记,发出去第一个笔记后,把该笔记的链接或者你的公众号ID发给我,我的邮箱是 jmzeng1314@163.com
https://mp.weixin.qq.com/s/DKiTTEVmcTkYq5R4v4oYCg