Closed ixxmu closed 1 week ago
Harmony 通过迭代学习一个特定细胞的线性校正函数
Fig. 1: Overview of Harmony algorithm.
PCA 将细胞嵌入到降维的空间中。 Harmony 接受这个降维空间中的细胞坐标,并运行一个迭代算法来调整数据集特定的效应。 a, Harmony 使用模糊聚类将每个细胞分配到多个簇中,同时一个惩罚项确保每个簇内数据集的多样性最大化。 b, Harmony 为每个簇计算一个全局质心,以及每个簇的数据集特定质心。 c, 在每个簇内,Harmony 基于质心为每个数据集计算一个校正因子。 d, 最后,Harmony 用一个细胞特定因子校正每个细胞:这是步骤 a 中通过细胞的软簇分配加权的数据集校正因子的线性组合。 Harmony 重复步骤 a 到 d,直到收敛。 随着每一轮的进行,簇分配和数据集之间的依赖性逐渐减弱。 数据集用颜色表示,细胞类型用不同的形状表示。
量化细胞系数据中的性能
Fig. 2: Quantitative assessment of dataset mixing and cell-type accuracy with cell-line datasets.
a, iLISI 衡量嵌入中数据集之间的混合程度,从未混合空间的 1 到完全混合空间中的 B,即分析中的数据集数量。 b, cLISI 使用相同的公式衡量整合准确性,但计算基于细胞类型标签。 一个准确的嵌入在每个邻域中的 cLISI 接近 1,反映了不同细胞类型的分离。 分析了来自纯细胞系数据集(紫色和黄色)的 n = 3,255 个 Jurkat 细胞和 n = 2,859 个人胚胎肾 293T(HEK293T)细胞,以及来自混合(绿色)细胞系数据集的 n = 1,799 个 Jurkat 细胞和 n = 1,565 个 HEK293T 细胞。 c,d, 在 Harmony 整合之前,细胞按数据集(c)和已知细胞类型(d)分组。 为每个细胞的邻域计算了 iLISI(c)和 cLISI(d),并用密度图进行了总结。 e,f, 在 Harmony 整合之后,混合数据集中的细胞与其他数据集混合(e),通过将 Jurkat 细胞与 Jurkat 细胞混合,HEK293T 细胞与 HEK293T 细胞混合实现(f)。 在 Harmony 嵌入中重新计算了 iLISI(e)和 cLISI(f)。
Harmony 适用于大规模数据
Fig. 3: Computational efficiency benchmarks. BBKNN, Scanorama, MNN Correct and MultiCCA are compared on five downsampled HCA datasets of increasing sizes.
a,b, 显示了分析每个数据集所需的总运行时间(a)和最大内存(b)。Scanorama、MultiCCA和MNN Correct在250,000和500,000个细胞数据集上因内存请求过多而被终止。 c, 这里可视化了500,000个细胞分析中Harmony嵌入的组织混合情况。这包括来自8个独立供体的n = 239,794个脐带血细胞和来自8个独立供体的n = 260,206个骨髓细胞。 d, 在Harmony嵌入中,通过典型标记对聚集的细胞群体进行标注:前T细胞、CD4幼稚T细胞、CD4记忆T细胞、T调节细胞、CD8幼稚T细胞、CD8效应T细胞、自然杀伤细胞、前B细胞、幼稚B细胞、记忆B细胞、浆细胞、浆细胞样树突状细胞(pDC)、常规树突状细胞(DC)、粒细胞巨噬细胞祖细胞(GMP)、CD16−单核细胞(CD14单核)、CD16+单核细胞(CD16单核)、同时阳性表达巨核细胞标记的单核细胞群体(PPBP单核)、巨核细胞(Mk)、红细胞祖细胞(Eryth)以及一群造血干细胞和多能祖细胞(HSC/MPP)。源数据
PBMC亚群的广泛和细粒度识别
Fig. 4: Fine-grained subpopulation identification in PBMCs across technologies.
三个PBMC数据集使用10X进行了检测,采用了不同的文库构建协议:5′(橙色,n = 7,697个细胞),3′ V1(紫色,n = 4,809个细胞)和3′ V2(绿色,n = 8,380个细胞)。 a,在整合之前,细胞按数据集分组。 b,经过Harmony整合后,数据集混合在一起。 c,d,使用典型标记物(c),我们识别出(d)五种共享的T细胞亚型和两种共享的B细胞亚型。
跨供体和技术的同步整合识别出罕见的胰腺胰岛亚型
Fig. 5: Integration of pancreatic islet cells by both donor and technology.
来自36位捐赠者的14,746个人类胰腺胰岛细胞在五种不同的技术平台上进行了检测:inDrop(4位捐赠者,8,569个细胞),Fluidigm C1(13位捐赠者,638个细胞),Smart-Seq2(10位捐赠者,2,355个细胞),CEL-seq(5位捐赠者,946个细胞)和CEL-seq2(4位捐赠者,2,238个细胞)。 a,b,细胞最初按(a)技术分组,用不同颜色表示,以及(b)捐赠者,用颜色的深浅表示。 c,d,Harmony同时在(c)技术和(d)捐赠者之间整合细胞。 e,在Harmony嵌入中的聚类。 f,不同细胞类型的比例。 g,h,我们将β内质网应激细胞群体(绿色,n = 306个细胞)中的内质网应激基因(g)和β内分泌功能基因(h)的log表达量(标准化为每十万计数的CP10K)与β细胞群体(橙色,n = 3,374个细胞)中的表达量进行了比较。 i,j,同样,我们将α内质网应激细胞群体(紫色,392个细胞)中的内质网应激基因(i)和α内分泌功能基因(j)的表达量与α细胞群体(绿色,n = 3,978个细胞)进行了比较。 差异表达分析采用双尾调节t检验进行。FDR通过Benjamini–Hochberg程序计算。 k,两种内质网应激群体的丰度在n = 36位捐赠者中进行了相关性分析。相关性通过Spearman’s rho计算,名义P值通过算法AS 89估计。只进行了一次测试,因此未应用多重假设校正。
和声整合了时间进程发展轨迹
Harmony 将分离的单细胞RNA测序与空间解析数据集整合
Fig. 6: Harmony integrates spatially resolved transcriptomic with dissociated scRNAseq datasets.
小鼠脑下丘脑前区细胞采用两种技术并行检测。对来自6只动物的30,370个解离细胞的完整转录组使用10X技术进行 profiling。对来自1只动物完整组织中的64,373个细胞,使用MERFISH技术在原位 profiling 了155个基因。比例尺,2毫米。 Harmony将两种模态的细胞整合到一个共享的嵌入中,正确合并了先前识别的12种细胞类型。源数据
和谐
概述
算法1 和谐
词汇表
关于输入数据的假设
最大多样性聚类
背景:软K-均值算法的熵正则化
最大多样性聚类的目标函数
集群多样性得分
优化
簇分配 R
质心估计 Y
算法2 最大多样性聚类
实现细节
阻止R的更新
质心初始化
用于平滑惩罚的正则化
θ 折扣
K,簇的数量
线性混合模型校正
专家混合模型
算法3 专家混合校正
参考映射
警告
性能和基准测试
LISI 指标
嵌入之间的意义
时间和记忆
细胞类型预测准确度
[ul]- 26 August 2020 In the supplementary information originally posted for this article, the Supplementary Results and Supplementary Notes 1–3 were missing. The error has been corrected online.
https://mp.weixin.qq.com/s/jpugbjhVvOQIESTCZcbW-A