Closed ixxmu closed 7 months ago
嘿嘿想必大家清明假都回家祭祖或者出去玩了叭,虽然原则上老板明令禁止了公休日以及周六日不让进办公室,要劳逸结合
但耐不住距离办公室一百米不到的小谢想偷偷卷大家呀(开玩笑的,家里无线没办好,搁办公室蹭网捏)
照常理该整理《复盘》的书籍内容,不过昨天直播分享结束感觉有些单细胞分析的概念内容需要整理一下啦,所以就又蹭上了老板开会带回来的书,偷偷学习hhh。但只要我整理分享出来就是大家一起学习了,可不能算偷偷学!
言归正传,首先来给大家分享一下单细胞样品的批次效应去除
内容来源联川生物《单细胞测序研究一本通 3.0》
单细胞数据是由多个实验环节产生,在样本时间批次、处理人员、实验批次,甚至技术平台(捕获效率差异)等方面均会存在差异。这些差异会导致数据产生批次效应(batch effect),并且可能在数据分析过程中混淆我们感兴趣的生物变化。
批次效应来源:
一般而言,去除批次效应前不同样品之间的细胞聚类是离散的;去除后,样品之间的细胞能够很好的聚集在一起,从而消除了样本之间的批次误差。
之前整理过Harmony整合与否区别
可以根据实际数据情况以及分析需求确定是否要去除批次效应(一般简单粗暴的话就是运行Harmony去除掉批次效应)
批次处理效应可能是高度非线性的,需要在保留关键生物变异的同时正确地对齐不同的数据集。
从单细胞测序样品收集以及实验方面避免批次效应
在实验环节的一致性,包括取样时间一致性、实验条件一致性等,尽可能避免由于时间批次、实验环境造成的误差。
保证实验环境、实验方法一致
一次性收集所有样品,在相同条件下同时开展单细胞实验(新鲜样本集中收集)
采用速冻法固定样本,并冷冻保存,收集完所有样本之后,用提核法一次开展实验(适用于收样时间跨度久)
使用混样方式一次性完成实验来减少批次效应(不设置生物学重复)
如果没办法满足实验环节的一致性操作,测序得到的单细胞数据就需要在分析上通过一些软件或者算法来实现批次效应的去除。
目前常用的去除批次效应的算法有Harmony、Seurat、fastMNN以及mnnCorrec等
Harmony
:使用迭代聚类的方法,找到一个细胞特异性线性校正函数将不同批次的数据整合,使用PCA降维后进入迭代过程。
迭代过程:
使用k-means软聚类方法进行聚类,将每个细胞分给多个潜在的类别
计算出每个类别中的质心和每个类别中每个批次的质心
根据质心计算处细胞特异性的线性校正因子
最后每个细胞可以根据每个类别的加权平均得到一个线性校正因子,因为每个细胞属于多个类别,所以每个细胞都有不同的校正因子
Seurat
:使用典型相关分析(CCA)进行降维,然后在标准化CCA空间寻找最小互近邻为了避免非相似性细胞间异常锚的产生,会使用SNN来评估细胞类型的相似性。与MNN类似,使用细胞间的差异表达计算校正因子
fastMNN
:在PCA空间上寻找最小互近邻,然后再进行校正
mnnCorrect
:通过寻找批次间的最小互近邻(MNN),即批次间相似类型的细胞在批次间共有的邻居,再根据这些细胞对计算批次效应,用于后续校正
mnnCorrect使用余弦归一化来标准化数据,然后计算MNN细胞对之间的欧氏距离,最后将计算出的批次效应向量应用于所有细胞。要求所有批次之间至少共享一种细胞类型,并且其假定存在的批次效应较小且与生物变异正交。
DESC
:一种无监督的深度嵌入算法,通过迭代优化聚类目标函数对单细胞RNA测序的数据进行聚类,并且能够消除批次效应。DESC可以再群集精度和稳定性之间取得适当的平衡,并且内存占用空间很小,不需要批次信息就可以消除批次效应
综合不同情景发现Harmony以及seurat是较好的批量混合去除批次效应的方法。
Harmony在使用相同细胞类型和不同技术的数据集上表现良好,并且运行时间相对较短,也适用于大数据集的初始数据探索。
seurat也能够处理大数据集,但是运行时间较长,由于它与多个批次的批次混合效果良好,因此也适用于多个批次的场景。
说了等于没说系列
https://mp.weixin.qq.com/s/1R_y9c1J_ePZUhqYoeWJ_w