ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
124 stars 30 forks source link

BD测序平台数据初探 #5972

Closed ixxmu closed 2 hours ago

ixxmu commented 2 hours ago

https://mp.weixin.qq.com/s/zxQ-0hN3IAYU7pasmm7FKg

ixxmu commented 2 hours ago

BD测序平台数据初探 by 生信漫漫学

写在开头

之前整理的文献基本上都是10X平台的测序数据,hhh因为作为初学者从10X数据入手比较合适

但是不知不觉#单细胞实战100次已经更新到77篇啦,所以不能仅仅停留在10X的数据,也是时候试试别的测序平台数据

接下来可能慢慢接触了解一下BD平台测序数据吧!

待分析数据集简介

这次这篇文献是《The effects of TNF-α/TNFR2 in regulatory T cells on the microenvironment and progression of gastric cancer》,后续会分享文献阅读笔记和数据分析推文!

在文献的材料与方法部分,很明确的说明用到的是BD平台进行测序的

对应的单细胞数据是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE172131

从三名胃癌(GC)患者的肿瘤组织和外周血中获得调节性T细胞(Tregs),进行研究分析,总共是6个样品

其实如果对BD测序平台数据熟悉的话,从数据详情的命名中就可以推断是否是BD平台的数据

BD测序数据简介

之前生信小博士就整理分享了BD单细胞测序手册,加上每个测序平台都有对应的介绍文档,所以可以先了解一下BD测序平台,及其得到的数据

BD测序及分析流程

Targeted Overview

分析流程在测序后使用FASTQ文件(包含测序数据)、mRNA参考文件(用于比对mRNA序列)和AbSeq参考文件(如果需要,用于比对抗体序列)

使用RSEC和DBEC算法调整 UMI

PCR和测序过程经常会生成错误。如果错误发生在UMI(唯一分子标识符)序列中,R1/R2读取对会被标记为一个独特的分子,但实际上它是一个人工产物。这些人工分子会导致细胞内某个基因的分子计数被高估。随着测序深度的增加,由于这些人工分子的存在,原始分子的数量会持续上升而不会趋于稳定。

为了消除UMI错误对分子计数的影响,BD Biosciences开发了一套UMI调整算法。通过递归替换错误校正(RSEC)识别并调整单碱基替换错误的UMI,将其校正至父级UMI条码。对于目标测序分析,其他源自文库制备步骤或测序碱基缺失的UMI错误随后会使用基于分布的错误校正(DBEC)进行调整。

UMI错误,特别是单碱基替换错误,会导致分子计数不准确。BD Biosciences为此开发了RSEC和DBEC两种UMI调整算法。RSEC用于识别和校正单碱基替换错误,而DBEC用于调整目标测序分析中由于文库制备或测序过程中的碱基缺失导致的错误。这些算法有助于提高单细胞测序数据的准确性,确保分子计数的可靠性。

测序分析输出文件

在完成测序分析后,输出的文件通常会有一个头部信息,这个头部信息概述了整个分析流程的运行情况,对于理解分析过程和结果至关重要,因为它包含了重新以相同配置运行分析流程所需的所有详细信息,方便用户在未来进行重复分析或对流程进行调试和验证

也就是当我们熟悉了测序文件之后,可以直接根据数据custom的文件名字,就可以判断出来是否是BD测序数据

其余输出数据

输出文件内容

帮助文档中还给出来每个文档的示例及解释

基于RSEC或DBEC校正后每个基因每个细胞的读取数和分子数

<sample_name>_RSEC_MolsPerCell.csv
<sample_name>_RSEC_ReadsPerCell.csv
<sample_name>_DBEC_MolsPerCell.csv
<sample_name>_DBEC_ReadsPerCell.csv

未过滤的数据包含所有读取数≥5的细胞标签

<sample_name>_RSEC_MolsPerCell_Unfiltered.csv.gz
<sample_name>_RSEC_ReadsPerCell_Unfiltered.csv.gz
<sample_name>_DBEC_MolsPerCell_Unfiltered.csv.gz
<sample_name>_DBEC_ReadsPerCell_Unfiltered.csv.gz

单细胞测序数据通常以表格形式呈现,其中每行对应一个细胞中特定基因的读取数或分子数。。细胞通过唯一的细胞索引号在"Cell_Index"下列出。

  • 细胞索引基于总读取数降序排序。四个文件中的细胞顺序是相同的。
  • 基因按字母顺序排序。
  • 对于PerCell.csv文件:只有通过所有流程过滤器并被确定来自潜在细胞的读取和分子才会被计数。
  • 对于PerCell_Unfiltered.csv.gz文件:这些文件包含未过滤的表格,包含读取数≥5的细胞标签。

在进行聚类分析时,推荐使用经过DBEC调整后的分子计数数据,因为这些数据能更准确地反映每个细胞中每个基因的分子数量。DBEC算法通过识别和调整UMI序列中的错误,提供了更精确的分子计数。

为了参考,也提供了RSEC调整后的读取计数和分子计数。在测序深度不足的情况下,即大多数基因的分子计数低于DBEC算法应用的阈值时,RSEC文件可以作为一个替代方案,因为它适用于低深度测序数据。这些信息通常记录在<sample_name>_UMI_Adjusted_Stats.csv 文件中,其中low_depth 表示测序深度不足以应用DBEC算法。

结尾小结

那这次文档先了解到这里叭,大家如果是BD测序数据,可以根据文档链接详细了解一下!

https://www.bdbiosciences.com/content/dam/bdb/marketing-documents/BD_Single_Cell_Genomics_Bioinformatics_Handbook.pdf

等整理完对应的文献阅读笔记,会分析数据试试看的,感觉和10X差的不是特别多。