癌症研究中单细胞数据分析的5个难点

癌症研究中单细胞数据分析的5个难点 by 生信技能树

单细胞领域的综述多如牛毛，大家很容易去PubMed使用关键词检索，成千上万的综述，当然了，比不上公众号解读多。我们的《单细胞天地》公众号就这五年一直在坚持整理这方面综述，目录如下所示：

最近看到了一个比较清晰明了的综述，适合癌症领域研究者初次接触单细胞技术前阅读，标题是：《Single-cell transcriptomics in cancer: computational challenges and opportunities》，该综述并没有过多描述单细胞数据分析的方方面面，也不是罗列降维聚类分群等步骤的各个不同软件算法：

(dissociating, sorting, and isolating cells, etc.),
sequences that can be aligned, quantified, quality control (QC) filtered, and normalized in different way

仅仅是聚焦于癌症研究中单细胞数据分析的5个难点，如下所示：

(1) identifying common cell types and states shared across patients and disease states from multiple scRNA-seq datasets;
(2) distinguishing neoplastic from nonneoplastic cells using marker and fusion gene detection, copy- number variation inference, and somatic mutation calling from scRNA-seq data;
(3) inferring cell–cell communication from the expression of genes encoding receptors and ligands;
(4) estimating the proportions of cell types in bulk gene expression profiles;
(5) characterizing transcriptional dynamics using trajectory inference and RNA velocity analysis.

难点1：合理的单细胞亚群命名

这个综述并没有在降维聚类分群耗费过多笔墨，仅仅是讨论了多种多个单细胞样品的整合问题，当然了最后肯定是推荐Harmony，也是我们一直分享的标准流程了，后续所谓的合理的单细胞亚群命名在我们看来，也其实并不难了。通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是：

immune (CD45+,PTPRC),
epithelial/cancer (EpCAM+,EPCAM),
stromal (CD10+,MME,fibro or CD31+,PECAM1,endo)

参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则，这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分，包括淋巴系（T,B,NK细胞）和髓系（单核，树突，巨噬，粒细胞）的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分，并且编造生物学故事的。

难点2：区分恶性肿瘤细胞

如果是上皮细胞来源的肿瘤单细胞转录组数据，其实我们已经讲解了太多了，走inferCNV等算法来鉴定，我们早期大量关于使用infercnv来推断肿瘤单细胞转录组数据里面的拷贝数的教程：

因为教程跨越了不同时间周期，软件更新，数据集的特异性，导致很多小伙伴follow不同系统的教程会得到不一样的报错。所以大家在运行 infercnv流程的时候，一定要注意关键参数哦！

这个综述讨论了其它非上皮细胞来源的恶性肿瘤，以及其它非拷贝数的方法来确定恶性肿瘤细胞，但是也仅仅是停留在讨论层面，并没有给出最佳实践。

难点3：细胞通讯

其实非常好理解，这个细胞通讯的概念，就是已知的两个具有配对关系的基因恰好在两个不同的单细胞亚群分别高表达量，就说明这两个亚群在这个基因对是通讯关系。

这两个亚群在这个基因对是通讯关系

The codetection of receptor-ligand pairs may be used to identify putative cell-cell communication.

In this illustration, the single-cell expression levels of known receptor-ligand pairs (Receptor A and Ligand A) are shown across cell types.
High receptor expression is identified in immune cells, as illustrated in the beeswarm plot, where each point is a cell.
Likewise, high ligand expression is identified in stromal cells.
Such codetection may indicate putative cell–cell communication between these two cell types.

可以看到，上面的免疫细胞和基质细胞就在这个已知的receptor-ligand pairs 要通讯关系，而且目前也有大量的软件算法可以做这方面分析啦。我们推荐CellChat流程啦，可以在：CellChat学习笔记【一】——通讯网络构建了解它的基础用法，**CellChat** 有一个专门的数据库，叫做CellChatDB，这个数据库是 CellChat 的作者们通过阅读大量文献，手动整理出来的“受体-配体”对，目前有人、鼠以及斑马鱼的版本。其中

人的叫做 CellChatDB.human，
鼠的叫做 CellChatDB.mouse，
斑马鱼的叫做 CellChatDB.zebrafish。

也可以使用其它软件，比如 CellPhoneDB ：

难点4：根据单细胞结果来反推普通bulk转录组的细胞比例

因为单细胞转录组数据有了降维聚类分群结果，所以各个单细胞亚群都有了各自的高表达量基因和通路，理论上是可以通过算法去反推普通bulk转录组的细胞比例。

Most deconvolution methods model the bulk gene-expression matrix as the product of an scRNA-seq gene expression reference (observed) and estimated cell-type proportions for all samples (unobserved) using different types of regression models,

但是这个综述似乎是在这方面并没有过多讨论。

难点5：单细胞亚群之间的动态变化

动态变化以前主要是拟时序分析，我也多次介绍过：

但是拟时序有一个问题是需要人为设置动态变化的起始终止点，比如我们会假设：a trajectory starts from cells expressing stemness-related pathways and ends at cells expressing maturation-related pathways.

这个时候 RNA velocity analysis. 算是一个简单的改进，但是它并不能从常规的表达量矩阵开始分析，需要至少从前面的转录组序列比对后的bam文件开始。详见：使用基于python的velocyto软件做RNA速率分析

其它单细胞高级分析

癌症研究中单细胞数据分析肯定是不只是这5个难点啦，部分其它难点我也做了相应的介绍：

文末友情推荐：毛遂自荐成为你的单细胞顾问

联系方式详见：毛遂自荐成为你的单细胞顾问

单细胞数据标准分析我们做的很多，但是无穷无尽的个性化分析，我们只能做到模仿，很难创新。而且我不是汤富酬张泽民这样的单细胞旗手，仅仅是带领学徒做了一下单细胞文献图表复现，只能做到模仿。文献有的我才会，不能凭空创造概念，只能说把自己看过的几百篇单细胞文献的共性整理，基于它们来对你进行指导哦。

作为单细胞顾问，我可以提供的服务仅限于：

你可以发5~10篇相关领域文献给我，预计耗时3小时我简单读一下，认识你的课题背景，收费3000块钱
你把自己的单细胞转录组数据分析做一个ppt给我，开腾讯会议我听你的讲解，互动一个小时，讨论一个小时，合计收费 2000元。
单细胞数据分析流程检查（降维聚类分群，亚群比例差异，表达量差异），耗时半个小时，收费2000块钱
其它高级分析的debug，单项收费1600

ixxmu / mp_duty