不通过聚类和特定基因marker也可以区分肿瘤细胞和正常细胞—CopyKAT

不通过聚类和特定基因marker也可以区分肿瘤细胞和正常细胞—CopyKAT by 生信人

2021年1月份，尼古拉斯团队在Nature Biotechnology（IF：36.558）发表Delineating copy number and clonal substructure in human tumors from single-cell transcriptomes，他们开发了一种整合的贝叶斯分段算法，称为非整倍体肿瘤拷贝数核型分析(CopyKAT)，用于估算高通量scRNA-seq基因组拷贝数谱，以区分肿瘤微环境中的正常细胞与恶性肿瘤细胞，识别主要的克隆亚群。

这个算法和以往的inferCNV和HoneyBadger相比，可以直接根据拷贝数谱区分正常细胞和肿瘤细胞，并且更适用于新的单细胞测序技术。文章详细介绍了该算法的原理和流程，并表明该算法应用于各种实体瘤和不同的测序技术。让我们来详细看一看吧。

背景

单细胞转录组分析被广泛用于研究人类肿瘤。然而，如何区分肿瘤微环境中的正常细胞与恶性细胞，以及如何识别肿瘤中的克隆亚结构，仍是一个挑战。一个有效方法是鉴定细胞非整倍体拷贝数谱，因为绝大多数的人类肿瘤细胞都是非整倍体(88%)，而正常人类基质细胞均是二倍体。

先前的方法——inferCNV和HoneyBadger，是针对第一代scRNA-seq技术设计的（具有较低的细胞通量和较高的覆盖深度）。而新开发的高通量scRNA-seq技术进行全转录组扩增，只对mRNA的3’或5’端进行稀疏覆盖，具有较高的细胞通量和较低的覆盖深度。此外，inferCNV和HoneyBadger不能准确地解析特定染色体断点的基因组位置，也不能根据非整倍体拷贝数谱正确分类肿瘤细胞和正常细胞。

而CopyKAT克服了这些缺点，研究者可以直接使用该方法，输入测序得到的单细胞表达数据，就可以得到正常细胞和肿瘤细胞的预测结果，并且了解这些肿瘤细胞的哪些基因组区域发生了变化。而将计算的拷贝数谱（基因型信息）和我们常规的表型分析结合起来，可以更加深刻的了解肿瘤细胞恶性表达程序。

数据及代码：

数据：GSE148673

代码：https://github.com/navinlabcode/copykat（包括测试数据）

（所以不懂算法的原理和流程不要害怕，安装R包后一行代码就可以得到计算结果，我们只要对算法有一个粗略的了解就可以啦。）

主要内容

一、CopyKAT 方法的整体流程

在对获取的表达数据处理后，过滤掉低质量的细胞和基因，然后对基因进行注释，根据它们的基因位点进行排序。(图1a左)
使用Freeman-Tukey变换稳定方差，使用多项式动态线性建模(DLM) 用于平滑单细胞UMI计数中的异常值。(图1a右)
检测一个高度置信的二倍体细胞的子集，以推断正常2N细胞的拷贝数基线值。使用Ward linkage对归一化的单细胞数据进行层次聚类，使用高斯混合模型(GMM)估计一致性谱的方差。按照一个严格的分类标准，估计方差最小的类被定义为“高置信的二倍体细胞”。(图b)
为了检测染色体断点，整合了泊松-伽马模型和马尔可夫链蒙特卡罗(MCMC)迭代来生成每个基因窗口的后验均值，然后应用Kolmogorov Smirnov (KS)检验来连接均值不存在显著差异的相邻窗口。(图c)
分类肿瘤细胞和正常细胞。我们假设细胞群之间的主要遗传距离是二倍体和非整倍体基因组的差异，因此采用Ward连锁和欧氏距离分层聚类的方法将单细胞划分为两个主要群体。为了确定每个cluster的身份，我们将聚类结果与和之前识别的预定义的高置信的正常二倍体细胞相结合。预定义正常细胞显著富集的簇被定义为正常二倍体细胞簇。(图d)
识别克隆亚结构。我们对单细胞拷贝数数据进行层次聚类，以确定克隆亚群体，并计算代表亚克隆基因型的一致性谱，以进一步分析它们的基因表达差异。(图e)

二、CopyKAT方法效能评估

为了评估CopyKAT的效能，对于来自3’端scRNA-seq（10X）测序的1480个乳腺癌细胞，作者分别使用CopyKAT和inferCNV计算拷贝数谱。同时提取该患者的数百万个肿瘤细胞进行bulk DNA测序，计算全基因组的bulk DNA拷贝数谱作为真实标准。

通过多种方法比较，结果显示，相比inferCNV方法，CopyKAT与bulk DNA拷贝数谱具有较高的一致性(Pearson correlation= 0.82)，其估计的拷贝数谱更接近DNA拷贝数状态(p<0.001)(图2g)；在不同大小的基因间断下，CopyKAT的稳定性也明显高于infer CNV(图2h)。在合适的基因组分辨率下(5 Mb)，CopyKAT可以通过scRNA-seq精确推断DNA拷贝数的状态。

三、CopyKAT在不同实体瘤中的应用

作者将CopyKAT应用于先前发表的5例胰腺癌的9,717个细胞、5例三阴性乳腺癌的8,944个细胞、5例甲状腺未分化癌患者的19,568个细胞的3’端scRNA-seq数据中（10X）。分别计算了它们的拷贝数谱，并在每个个体中成功识别了非整倍体肿瘤细胞亚群和二倍体的正常细胞亚群，并和通过特异性基因表达标记识别的结果相验证。总之，CopyKAT可以在不需要特异性基因表达标记的情况下，仅根据scRNA-seq数据推断的非整倍体拷贝数谱，准确地(98%±3% s.d)区分多种实体肿瘤中的肿瘤细胞和正常细胞。

四、CopyKAT适用于多种单细胞测序技术

在确定CopyKAT方法适用3’ 端的高通量scRNA-seq数据后，作者进一步研究该方法适不适用其他的测序技术（SMART-seq2或高通量的5’端scRNA-seq技术）。作者对2例雌激素受体阳性侵袭的导管癌（ER+ IDC）患者进行5’端高通量单细胞RNA测序（10X）, 同时还选取了SMART-seq2测序的两例GBM患者的scRNA-seq数据（GSE131928，先前发表）。

在ER+ IDC中，CopyKAT推断的结果和scRNA-seq表达数据的聚类结果一致(图4b,d)。这验证了CopyKAT预测的准确性。在GBM中，CopyKAT推断的非整倍体肿瘤细胞簇表达了高水平的EGFR(图4f,h)，这是GBM个体中已建立的肿瘤细胞标记物。这些数据结果表明了CopyKAT与广泛的测序技术兼容。

五、结合肿瘤的基因型和表型

为了刻画肿瘤的克隆亚结构并将肿瘤基因型与表型联系起来，作者将CopyKAT应用于三个TNBC个体的scRNA-seq数据。根据拷贝数差异，对推断出的拷贝数谱进行聚类，识别克隆亚群体。并计算每个簇的一致性拷贝数谱，以识别拷贝数差异的基因组区域。根据这些亚克隆的一致性谱，对不同的亚克隆群体进行差异表达分析和基因signature分析，以确定亚克隆之间的表型差异。

文末小结

尼古拉斯作为肿瘤进化领域的大牛，以往着重于单细胞DNA方面的分析。这次开发的CopyKAT方法，在scRNA-seq识别拷贝数谱、分类肿瘤细胞和正常细胞、刻画克隆亚结构方向，提供了一个强大的自动化的工具。文章首先介绍了CopyKAT算法的原理和计算流程；接着对比inferCNV和bulk DNA-seq的识别结果，评估CopyKAT方法的效能；然后将该算法应用于不同的癌型、不同的测序技术下，验证了CopyKAT算法的广泛的适用性；最后使用CopyKAT算法识别三个乳腺癌患者的克隆亚结构，联系肿瘤细胞的基因型和表型，为研究者研究肿瘤细胞的恶性表达程序提供了一个新的方向。

所以，最简单的，我们可以单纯的使用该方法区分肿瘤细胞和正常细胞，以方便我们研究肿瘤细胞和正常细胞的差异；更进一步，在肿瘤研究中，研究者可以结合差异表达分析、GSVA分析和识别的肿瘤细胞的拷贝数谱，研究基因型和表型之间的联系；难度更大一点，还可以利用识别的拷贝数谱，推测克隆亚结构，研究肿瘤进化。

欢迎关注生信人

转录组| 甲基化 | 重测序 | 单细胞 | m6A|多组学

cytoscape | limma | WGCNA |水熊虫传奇|linux

电泳 | PCR | 测序简史 | 核型 | NIPT | 基础实验

基因| 2019-nCoV | 富集分析 | 联合分析 |微环境

瘟疫追凶| 思路汇总| 学者 | 科研 | 撤稿| 读博|工作

ixxmu / mp_duty

不通过聚类和特定基因marker也可以区分肿瘤细胞和正常细胞—CopyKAT #3072

不通过聚类和特定基因marker也可以区分肿瘤细胞和正常细胞—CopyKAT by 生信人