ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
127 stars 32 forks source link

空间转录组数据整合方法-3 STAligner模型的原理介绍 #4905

Closed ixxmu closed 7 months ago

ixxmu commented 7 months ago

https://mp.weixin.qq.com/s/P7WBKqLgXCCu96o_hia_OQ

ixxmu commented 7 months ago

空间转录组数据整合方法-3 STAligner模型的原理介绍 by TOP生物信息

文章简介

2023年10月12日,中科院数学所的张世华研究员在期刊Nature Computational Science上发表了研究论文《Integrating spatial transcriptomics data across different conditions, technologies and developmental stages》,该工作提出了一个称为STAligner的图注意力神经网络模型,用于整合不同条件(样本条件),技术(测序手段),发育阶段(针对发育数据集)的空间转录组数据集


任务定义-空间转录组数据整合

空间转录组学数据整合是指将来自不同样本、使用不同技术平台获取的空间转录组数据集进行综合分析,消除批次效应融合不同分辨率和不同实验手段和测序平台数据的过程。

具体来说,在深度学习层面,空间转录组学数据整合任务就是:深度学习模型学习将不同批次来源的数据,并映射到一个共享的embedding空间中,同时消除不同数据集之间的批次差异,分辨率差异,生成保留生物学差异的embedding。



STAligner模型介绍

图注意力自编码器介绍

图注意力自编码器是一种无监督的表示学习框架,它同时使用图结构信息和节点属性。它采用图注意力机制来确定空间邻近节点对学习节点embedding的影响,并减少表达数据中噪声和缺失的影响,生成节点embedding。

图注意力自编码器将空间图作为输入,该图的节点代表空间转录组数据中的spots,边表示spots之间的空间邻近性,作者使用KNN或者指定半径的方法来计算不同spots之间的空间邻近性。此外,空间图中的每个spots都有相关的feature,通常是基因表达数据,这些数据被用来学习节点的embedding。

图注意力自编码器使用注意力机制来确定图中每个节点的邻居节点对其embedding的影响。这种机制允许模型动态地为每个邻居分配不同的重要性权重(即下述公式)。该公式中,即节点i和节点j在第k层神经网络中的注意力权重,通过sigmoid函数计算,即第k层神经网络输出的节点embedding。

接下来,作者通过解码器,将编码器的输出重构回原始的基因表达空间,通过最小化重构损失(即下面的损失函数,编码器输出和解码器重构之间的差异),来保证模型可以学习到数据的有效embedding。

三元组损失函数介绍

但是,单纯的图注意力自编码器只能学习单张切片上所有spots的有效embedding,无法去除不同切片之间存在的批次效应。作者在这里使用三元组损失函数来去除不同切片之间的批次效应,生成去除批次效应的节点embedding。 

作者首先定义了一组锚点样本,正样本和负样本。三元损失函数的核心思想是保持锚点样本和正样本之间的距离较小,同时增大锚点样本和负样本之间的距离。

具体来说,在embedding空间,作者使用MNN 方法(相互最近邻)来定义具有相似基因表达但来自两个不同切片的锚点样本和正样本。通过从锚点样本所在的切片进行随机抽样来获得负样本。作者利用三元组损失函数(下述公式),在embedding空间中,最小化锚点样本-正样本之间的距离,最大化锚点样本-负样本之间的距离,来去除不同样本之间的批次效应。

最终作者提出了下述损失函数,α是一个控制重构损失和批次对齐损失(三元组损失函数)权重的超参数,默认大小是0.5。


STAligner部分实验结果介绍

作者应用 STAligner 算法,来分析s通过 Slide-seq和 Stereo-seq平台进行测序的两个小鼠嗅球的空间转录组学数据。鼠嗅球因为具有清晰的组织结构和已知的细胞类型,所以非常适合作为验证数据集。

此外Slide-seq的spots大小为10微米,而stereo-seq的spots大小为0.5微米,分辨率的差异和测序手段的不同使得这两张空间转录组切片之间存在显著的批次效应,非常适合检验STAligner算法去除批次效应的能力。

整合结果显示,相较于传统用于整合scRNA-seq数据的Harmony算法,之前发表的空间转录组学整合算法SEDR,STAligner有效去除了两种测序技术分辨率不同的差异,更好的识别了组织中的空间结构。例如在Slide-seqV2数据中识别出了附属嗅球(accessory olfactory bulb, AOB)和附属嗅球颗粒层(granular layer of the accessory olfactory bulb, AOBgr),而这些结构在stereo-seq切片中是不存在的。


总结

总之,STAligner模型使用了图注意力自编码器对空间转录组学数据进行建模,使用三元组损失函数来消除不同空间转录组学之间的批次效应。这种对空间转录组学数据进行建模的思想非常值得我们学习。

目前STAligner已经被整合进python包Omicverse的工作流,大家可以在以下链接找到相关教程和代码https://omicverse.readthedocs.io/en/latest/Tutorials-space/t_staligner/

在此感谢董弘禹师兄对本文的修改建议和指正!


参考资料

Zhou X, Dong K, Zhang S. Integrating spatial transcriptomics data across different conditions, technologies and developmental stages[J]. Nature Computational Science, 2023, 3(10): 894-906.