MGI-tech-bioinformatics / DNBelab_C_Series_HT_scRNA-analysis-software

An open source and flexible pipeline to analysis high-throughput DNBelab C Series single-cell RNA datasets
MIT License
52 stars 20 forks source link

自己使用DNBC4tools的结果与公司返回的结果比较 #45

Closed Bathroomboss closed 2 months ago

Bathroomboss commented 6 months ago

技术老师您好! 此前的分析都是直接使用公司返回的counts去做分析 由于想做velocyto的分析,所以跑了一遍DNBC4tools的流程,出于好奇拿其中一个结果文件和公司返回的比较了一下。自认为差别比较大。原因如下: 首先从数目上,一个是15695 features 4188 cells,一个是20500 features 6677 cells,而且不去批次效应将两个seurat对象合并,UMAP图上二者基本上是分开的。 一些疑问:

  1. 有什么合适的方法判断这两个结果差异是否很大?
  2. 如果差异很大,我该相信哪一个结果?如果相信公司的结果,那自己跑出来的velocyto的结果是不是就不能用了?
lishuangshuang0616 commented 6 months ago

基本分开你得看下你的基因名字是否一样,用的是否是同一套注释文件 还有确定一下,公司分析的是不是包含了intron reads,可能两套分析的时候存在参数的差异。

Bathroomboss commented 6 months ago

基本分开你得看下你的基因名字是否一样,用的是否是同一套注释文件 还有确定一下,公司分析的是不是包含了intron reads,可能两套分析的时候存在参数的差异。 image 好的,感谢老师及时的回复。我用的注释文件按照是您网站上的示例下载并且制作的。我看了一下基因名应该没什么问题。matrix文件看到有一些不同,如截图所示。 此外,是否可以自己根据公司返回的表达矩阵去判断其分析是否包含了intron reads,还是说得去询问才行? 再次感谢!

lishuangshuang0616 commented 6 months ago

你的报告html上面有一个intron reads是否包含,然后基因名称看features.tsv.gz是否名称差不多

Bathroomboss commented 6 months ago

你的报告html上面有一个intron reads是否包含,然后基因名称看features.tsv.gz是否名称差不多 image

好的,谢谢老师。小鼠的数据。features.tsv.gz文件,行数一个25626(自己处理),一个22155(公司返回)。 从我自己的分析结果可以在04.report文件夹里面找到报告,如截图所示找到 intron reads 信息。但是公司返回的报告都是关于测序质量之类,没找到和分析相关的报告。 多谢老师的回答!

Bathroomboss commented 6 months ago

技术老师您好,今天又一次查看结果,发现公司返回的矩阵中的barcode.tsv的内容居然与自己跑完流程产生的barcode.tsv相去甚远。虽然都是 CELLx_Nx (x为数字)这样的格式,但是我overlap两个几千行的文件发现仅有60行overlap。确定样品信息是没有搞错的。 个人猜测是不同的处理流程产生了不同的barcode文件,所以导致对不上。 偶然找到一个公司返回的文件夹中的结构如图所示。 image 结构和DNBC4tools的不太一样,不知道技术老师是否知道这个是用什么软件处理的? 因为想run velocyto,而需要统一细胞的名称,现在又发现公司返回的矩阵与自己跑出的文件的 barcode对不上,所以很束手无策,不知道老师有什么建议? 谢谢!

lishuangshuang0616 commented 6 months ago

The format "CELLx_Nx" (where x is a digit) is just a designation, so the cell numbering results may vary across different versions of the processing. The approach in the provided screenshot appears to align with the DNBC4tools analysis, although it's uncertain whether the versions are consistent.

For running the velocyto analysis, if the output is from DNBC4tools, it is necessary to first use the dnbc4tools tools changetag to adjust the cell tags in the _anno_decon_sorted.bam_ file. Afterward, velocyto can be employed to analyze the adjusted bam file and generate a loom file.

Achieving a unified cell nomenclature is likely challenging, as "cell_N" is just an identifier created after bead merging. The reasons for needing a unified cell name?

Bathroomboss commented 6 months ago

Thanks for the quick reply ! I use changeBamTag.py change the _anno_deconsorted.bam into velocyto.bam , which will be used as the velocyto run input file. I perform scRNAseq analysis for other group, so I want to be on the safe side and use the matrix that the company returned. The company just gave me the raw data and the matrix. I used dnbc4tools tools to process these data in order to do velocyto analysis. The main problem is that my outputs don't match the company's, so I can't use velocyto outputs unless i use my matrix instead of company's ... So I think there is no way to match these two output since dnbc4tools tools doesn't take real barcode as cell ID as cell ranger does ...

lishuangshuang0616 commented 6 months ago

Because of the magnetic bead merging step, CB tag is converted into DB tag. DB tag is random, so it is difficult to compare.