ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
103 stars 30 forks source link

BIB一作约稿 | AtacAnnoR, scATAC-seq细胞类型注释新方法 #3707

Closed ixxmu closed 1 year ago

ixxmu commented 1 year ago

https://mp.weixin.qq.com/s/9TUlAATcFbG3p2u33ZRtXw

ixxmu commented 1 year ago

BIB一作约稿 | AtacAnnoR, scATAC-seq细胞类型注释新方法 by 生信编程自修室

单细胞 ATAC-seq(scATAC-seq)能够测量单细胞水平的染色质开放信息,是用于研究基因调控和细胞异质性的重要方法之一。细胞注释是 scATAC-seq 数据分析中非常重要的一步,然而,scATAC-seq 数据由于其高维度、高稀疏度、高噪音的特点,使得细胞注释较为困难。大多数现有的注释方法基于多模态整合,容易受到批次效应的影响,并且可能会忽视稀有的细胞类型。

AtacAnnoR 是近期发表在 Briefings in Bioinformatics 上的一种新颖的 scATAC-seq 的细胞注释算法。AtacAnnoR 可以利用已标注的 scRNA-seq 数据作为参考,对 scATAC-seq 的细胞类型进行注释。工具链接:https://github.com/TianLab-Bioinfo/AtacAnnoR

算法简介

AtacAnnoR 主要利用两轮注释的方法,从而避免批次效应和跨模态细胞注释:

  • 首先,scATAC-seq 的 peak 计数矩阵被处理成两个矩阵,一个是基因活性矩阵(代表基因层面的信息),另一个是经过 NMF 降维的 meta-program 矩阵(代表整个基因组开放的信息);

  • 第一轮注释主要是在基因层面的注释。首先针对参考的 scRNA-seq 进行差异分析,寻找标记基因;然后,scATAC-seq 基因活性矩阵中的每个细胞首先与 scRNA-seq 中的细胞类型比较,确定细胞的初始标签(candidate cell labels)。最后,利用找出的标记基因对初始标签进行验证,最后只保留高可信的部分细胞,称为种子细胞候选(seed cell candidates)。这些种子细胞候选接下来再作为训练样本,进入第二轮注释。

  • 第二轮注释利用了整个基因组的信息。首先对种子细胞候选进行进一步的清洗,得到更高质量的种子细胞(准确率能达到 95%左右)。然后利用这些最终的种子细胞,使用 WKNN(加权最近邻)算法对剩下未标注的细胞进行标注。在第二轮注释中,由于训练样本本身就来自待注释的细胞群,因此不会受到批次效应的影响。

更多方法细节请参考原文。

算法性能

作者设计了三种情况,系统地对 AtacAnnoR 的表现进行了测试。这三种情况分别是:

benchmark测试的三种情况

  • 细胞层面的双组学测序数据(cell-level dual omics sequencing)。即在同一个细胞内同时测量基因表达和染色质开放,这种情况可以作为金标准来验证 scATAC-seq 细胞注释工具的准确性。

  • 样本层面的双组学测序数据(sample-level dual omics sequencing)。即同一份样本分成两份分别进行 scRNA-seq 和 scATAC-seq。这种数据通常是研究人员为了自己的研究目的从而进行了特殊的实验设计,对双组学分别进行测序。

  • 仅有待注释的 scATAC-seq 数据,使用其他来自公共数据库的 scRNA-seq 作为参考来进行细胞注释。这种情况是最普遍,同时也是难度最大的一种情况。因为大多数情况下并没有配套的 scRNA-seq 作为参考,公共数据库的 scRNA-seq 数据可能会与手上的 scATAC-seq 数据存在较大的批次效应。

作者将 AtacAnnoR 和 Seurat v3(2019, Cell),GLUE(2022, Nature biotechnology),scJoint(2022, Nature biotechnology),Conos(2019, Nature methods), MAESTRO(2020, Genome biology)和 CellWalkR(2021, Genome biology)进行了比较。

在前两种情况下,AtacAnnoR 的注释准确率和 GLUE 几乎处于并列第一的位置,而平衡准确率(balanced accuracy)要远好于其他方法,说明 AtacAnnoR 不止能对数量多的细胞类型准确注释,同时也能关注到细胞数量较少的亚群。作者对稀有细胞类型的准确率检查也说明可这一点:AtacAnnoR 对稀有细胞注释的平均准确率达到了 0.9,而第二名的 GLUE 只有 0.71。Seurat v3 和 scJoint 是表现也还不错的方法,但 Seurat 在细胞比例极端不平衡的数据集上表现不佳,而 scJoint 的问题在于对稀有细胞类型的注释效果不佳。

前两种情况的AtacAnnoR与其他方法注释结果比较

对于第三种情况,AtacAnnoR 的优势更加明显,达到了 0.91 的平均准确率,而第二名的 Seurat v3 仅有 0.75。在前两种情况表现很好的 GLUE 方法在地三种情况下仅达到了 0.55 的准确率。这说明其他方法受批次效应的影响较大,而 AtacAnnoR 几乎不受影响。

第三种情况的AtacAnnoR与其他方法注释结果比较

最后,作者调查了其他方法失败的可能原因。作者发现,GLUE 注释出的 scATAC-seq 的细胞比例与 scRNA-seq 参考数据集的细胞比例有着非常高的相关性,Seurat v3 也有部分相关性,这可能是因为他们都是首先对两个模态进行数据整合,然后再利用近邻细胞进行细胞注释。当参考数据和待注释数据的细胞比例有较大差异时,整合可能失败,从而导致细胞注释结果不准确。

其他方法失败的可能原因

点击下方阅读原文跳转到文献!

更多内容推荐:

NC一作特别约稿 | 基于最优传输整合单细胞数据的统一计算框架uniPort

spatialdata | 空间多组学统一数据分析模型

华大空转 | 空间受配体对分析详解