ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
124 stars 30 forks source link

单细胞多组学上下游全打通 #2579

Closed ixxmu closed 2 years ago

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/tV7SfHHf855vq8QW7ncSPg

github-actions[bot] commented 2 years ago

单细胞多组学上下游全打通 by 生信菜鸟团

我们五年前系统性整理的ngs多组学都是可以单细胞水平化,就是说之前有转录组现在就有单细胞转录组,之前有ATAC-seq现在就有单细胞ATAC-seq,之前有免疫组库(VDJ-seq),现在也有单细胞免疫组库。这些流程我们都整理过笔记:

ngs多组学到单细胞多组学

从传统bulk时代的ngs多组学到现在流行的单细胞多组学其实在数据分析角度并没有什么特殊性,如果有比较好的Linux和R语言这样的编程基础,很容易进行知识点迁移,无非就是看几个文档,跑一下示例代码即可掌握单细胞多组学。我们在单细胞转录组数据分析这个领域有了大量的笔记分享,它上游就是走cellranger的定量流程即可,代码我已经是多次分享了。参考:

下游就是降维聚类分群,一般来说单细胞转录组测序数据走完cellranger的定量流程,每个样品就会得到3个表达量矩阵文件(barcodes.tsv.gz,matrix.mtx.gz,genes.tsv.gz或者features.tsv.gz),然后就可以走seurat流程进行单细胞降维聚类分群。这样的基础分析,也可以看基础10讲:

单细胞ATAC-seq

同样的,单细胞ATAC-seq也是上下游独立开,走在Linux系统的cellranger-atac软件进行上游分析,然后走R语言里面的下游统计可视化即可。

这里我们拿刚刚发表的范文举例:西湖大学和浙江大学的科研团队合作的,发表于2022年6月的,发表在Cell Discovery 的文章 :《Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma》,链接是:https://www.nature.com/articles/s41421-022-00415-0

是关于  clear cell renal cell carcinoma (ccRCC)  的肿瘤微环境的单细胞多组学,包括:

  • single-cell RNA sequencing (scRNA-seq)
  • single-cell assay for transposase-accessible chromatin sequencing (scATAC-seq)

数据在PRJNA768891,需要自己下载其测序数据,如下所示:

$ ls -lh *gz|cut -d" " -f5-
28G 8月   2 15:14 SRR16213608_S1_L001_R1_001.fastq.gz
28G 8月   2 15:18 SRR16213608_S1_L001_R2_001.fastq.gz
29G 8月   2 15:23 SRR16213609_S1_L001_R1_001.fastq.gz
29G 8月   2 15:27 SRR16213609_S1_L001_R2_001.fastq.gz
42G 8月   2 15:33 SRR16213610_S1_L001_R1_001.fastq.gz
42G 8月   2 15:40 SRR16213610_S1_L001_R2_001.fastq.gz
41G 8月   2 15:46 SRR16213611_S1_L001_R1_001.fastq.gz
34G 8月   2 15:51 SRR16213611_S1_L001_R2_001.fastq.gz
39G 8月   2 15:57 SRR16213612_S1_L001_R1_001.fastq.gz
34G 8月   2 16:02 SRR16213612_S1_L001_R2_001.fastq.gz
44G 8月   2 16:09 SRR16213613_S1_L001_R1_001.fastq.gz
37G 8月   2 16:15 SRR16213613_S1_L001_R2_001.fastq.gz
37G 8月   2 16:21 SRR16213614_S1_L001_R1_001.fastq.gz
33G 8月   2 16:26 SRR16213614_S1_L001_R2_001.fastq.gz

简单的看 PRJNA768891描述信息,可以知道前面的3个是 (scATAC-seq) ,后面的4个是(scRNA-seq) ,需要分开独立走cellranger流程,所以需要自行去cellranger官网注册并且下载软件和数据库文件,我们一直在做单细胞,所以下面的数据库文件是不同时间段下载的不同版本:

   34M 3月   1 17:06 aspera-connect-3.7.4.147727-linux-64.tar.gz
  972M 3月   1 17:03 cellranger-4.0.0.tar.gz
  955M 3月   1 17:03 cellranger-5.0.1.tar.gz
  1.1G 3月   1 17:03 cellranger-6.0.0.tar.gz
  528M 3月  24 10:50 cellranger-atac-2.1.0.tar.gz

 14G 5月   3  2021 refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz
   11G 3月   1 17:04 refdata-gex-GRCh38-2020-A.tar.gz
  9.9G 3月   1 17:05 refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
  9.7G 3月   1 17:06 refdata-gex-mm10-2020-A.tar.gz
  
  
  3.3M 3月   1 17:03 refdata-cellranger-vdj-GRCh38-alts-ensembl-4.0.0.tar.gz
3.3M 3月  24 15:20 refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0.tar.gz
3.5M 3月  24 15:20 refdata-cellranger-vdj-GRCm38-alts-ensembl-5.0.0.tar.gz

大家作为初学者,可以一次性下载最新版即可。这个步骤需要的计算资源比较大,所以我们一次性跑完结果给大家哈。

交流群

因为这个Cell Discovery 的文章 :《Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma》,非常贴心的整理了其全套单细胞多组学下游分析R语言代码给大家,在:GitHub (https://github.com/Dragonlongzhilin/RenalTumor).

我下载并且解压看了看,还是有很多可取之处,所以组建交流群号召大家一起解读一下这些代码,而且我们 提供这个文章附带的PRJNA768891数据集的上游分析结果给大家哈。

就是你不做单细胞多组学,打开这套代码也可以观摩一下里面的自定义函数技巧:

    41 Combined.P.FC.R
     105 Dot.plot.R
      12 Filter.gene.R
      43 IDConvert.R
     125 Integrate.scRNA.scATAC.R
      91 Plot_colorPaletters.R
     294 analysis.diff.survival.TCGA.R
      40 doubletDetect.R
      31 plot.violin.R
      29 ratio.plot.R
      18 variableFeatureSelection.R

因为单细胞转录组我们已经有了大量教程(4个系列两百多个笔记),大家很容易得到文章里面的降维聚类分群和生物学命名,如下所示:

降维聚类分群和生物学命名

可以看到主要是5个淋巴系免疫亚群:

  • CD4+ (CD4, IL7R, CD3D, CD3E)
  • CD8+ T cells (CD8A, CD8B, CD3D, CD3E)
  • Treg (FOXP3, IL2RA)
  • natural killer (NK)/natural killer T (NKT) cells (KLRD1, GNLY)
  • B cells (MS4A1/CD20, CD79A)

以及5个髓系细胞

  • macrophages (CSF1R, CD68, CD163),
  • monocytes (S100A12, FCGR3A/CD16),
  • mast cells (TPSAB1, KIT)
  • Dendritic cell
  • Neutrophil

其实就是我们一直确定的肿瘤单细胞降维聚类分群规则啦,第一层次分群也是肿瘤上皮细胞,基质细胞(内皮,成纤维等),免疫细胞(淋巴系的T, NK 和B,髓系的巨噬和单核)。

所以本次交流群我们会重点解读单细胞ATAC-seq的代码哦,如下所示:

     208 1.mergeData.R
      79 2.cluster.R
     118 3.1.integrate.scATAC.scRNA3000.R
     189 3.2.AssignCellType.R
     541 4.1.callPeak&DAR.R
     213 4.2.peakAnnotation.genomicLocation.R
      70 4.3.peak.annotated.geneHancer.R
     138 5.1.motif.enrichment.R
     297 5.2.motif.analysis.R 
      39 5.3.2.drug.plot.R
     124 6.1.cis-coassessibility.R
     204 6.2.ccans.annotated.genomicLocation.R
     122 7.1.All.TF.target.R
     321 7.2.Tumor..TFs.regulatoryNetwork.R
     480 7.Tumor.TFs.regulatoryNetwork.R
     552 8.1.Immune.CD8T.R
     536 8.1.Immune.CD8T.TF.target.R
     507 8.2.Immune.Macrophage.R
     525 8.2.Immune.Macrophage.TF.target.R
      86 Endothelial.R
     814 ExtraDataAnalysis.R
      76 NK.analysis.R

尤其是代码里面的scATAC和scRNA数据的整合,文献里面的展示的很漂亮:

scATAC和scRNA数据的整合

还等什么呢?赶快扫码入群吧!

入群方式

同样的,本次交流群并没有公开课,就是一个简单的微信交流群哦!群聊组建费用18.8元,一个简单的门槛隔绝那些不怀好意的广告营销号! 前200名可以直接扫描(仍然需要18.8)群聊二维码进群,满200人后我们会统一收款!(每个人都是18.8 元,如果你不同意这个象征性收费,请不要进群哈!)

目前前面的200人已经满了,剩余的小伙伴如果需要进群,就需要我们生信技能树的官方拉群小助手帮忙拉群哦!(名额有限,先到先得!

这个时候请直接付款28元给小助手,就可以进群,或者你转发此推文到朋友圈然后截图给小助手,就可以仍然以18.8元进群!

一个简单的门槛,隔绝那些营销号!我们也会在群里分享关于这个文章的单细胞数据分析分析代码的理解,仅此而已,考虑清楚哦! 

长按识别二维码


烦请备注姓名学校单位信息

写在文末

我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。


github-actions[bot] commented 2 years ago

单细胞多组学上下游全打通 by 生信菜鸟团

我们五年前系统性整理的ngs多组学都是可以单细胞水平化,就是说之前有转录组现在就有单细胞转录组,之前有ATAC-seq现在就有单细胞ATAC-seq,之前有免疫组库(VDJ-seq),现在也有单细胞免疫组库。这些流程我们都整理过笔记:

ngs多组学到单细胞多组学

从传统bulk时代的ngs多组学到现在流行的单细胞多组学其实在数据分析角度并没有什么特殊性,如果有比较好的Linux和R语言这样的编程基础,很容易进行知识点迁移,无非就是看几个文档,跑一下示例代码即可掌握单细胞多组学。我们在单细胞转录组数据分析这个领域有了大量的笔记分享,它上游就是走cellranger的定量流程即可,代码我已经是多次分享了。参考:

下游就是降维聚类分群,一般来说单细胞转录组测序数据走完cellranger的定量流程,每个样品就会得到3个表达量矩阵文件(barcodes.tsv.gz,matrix.mtx.gz,genes.tsv.gz或者features.tsv.gz),然后就可以走seurat流程进行单细胞降维聚类分群。这样的基础分析,也可以看基础10讲:

单细胞ATAC-seq

同样的,单细胞ATAC-seq也是上下游独立开,走在Linux系统的cellranger-atac软件进行上游分析,然后走R语言里面的下游统计可视化即可。

这里我们拿刚刚发表的范文举例:西湖大学和浙江大学的科研团队合作的,发表于2022年6月的,发表在Cell Discovery 的文章 :《Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma》,链接是:https://www.nature.com/articles/s41421-022-00415-0

是关于  clear cell renal cell carcinoma (ccRCC)  的肿瘤微环境的单细胞多组学,包括:

  • single-cell RNA sequencing (scRNA-seq)
  • single-cell assay for transposase-accessible chromatin sequencing (scATAC-seq)

数据在PRJNA768891,需要自己下载其测序数据,如下所示:

$ ls -lh *gz|cut -d" " -f5-
28G 8月   2 15:14 SRR16213608_S1_L001_R1_001.fastq.gz
28G 8月   2 15:18 SRR16213608_S1_L001_R2_001.fastq.gz
29G 8月   2 15:23 SRR16213609_S1_L001_R1_001.fastq.gz
29G 8月   2 15:27 SRR16213609_S1_L001_R2_001.fastq.gz
42G 8月   2 15:33 SRR16213610_S1_L001_R1_001.fastq.gz
42G 8月   2 15:40 SRR16213610_S1_L001_R2_001.fastq.gz
41G 8月   2 15:46 SRR16213611_S1_L001_R1_001.fastq.gz
34G 8月   2 15:51 SRR16213611_S1_L001_R2_001.fastq.gz
39G 8月   2 15:57 SRR16213612_S1_L001_R1_001.fastq.gz
34G 8月   2 16:02 SRR16213612_S1_L001_R2_001.fastq.gz
44G 8月   2 16:09 SRR16213613_S1_L001_R1_001.fastq.gz
37G 8月   2 16:15 SRR16213613_S1_L001_R2_001.fastq.gz
37G 8月   2 16:21 SRR16213614_S1_L001_R1_001.fastq.gz
33G 8月   2 16:26 SRR16213614_S1_L001_R2_001.fastq.gz

简单的看 PRJNA768891描述信息,可以知道前面的3个是 (scATAC-seq) ,后面的4个是(scRNA-seq) ,需要分开独立走cellranger流程,所以需要自行去cellranger官网注册并且下载软件和数据库文件,我们一直在做单细胞,所以下面的数据库文件是不同时间段下载的不同版本:

   34M 3月   1 17:06 aspera-connect-3.7.4.147727-linux-64.tar.gz
  972M 3月   1 17:03 cellranger-4.0.0.tar.gz
  955M 3月   1 17:03 cellranger-5.0.1.tar.gz
  1.1G 3月   1 17:03 cellranger-6.0.0.tar.gz
  528M 3月  24 10:50 cellranger-atac-2.1.0.tar.gz

 14G 5月   3  2021 refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz
   11G 3月   1 17:04 refdata-gex-GRCh38-2020-A.tar.gz
  9.9G 3月   1 17:05 refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
  9.7G 3月   1 17:06 refdata-gex-mm10-2020-A.tar.gz
  
  
  3.3M 3月   1 17:03 refdata-cellranger-vdj-GRCh38-alts-ensembl-4.0.0.tar.gz
3.3M 3月  24 15:20 refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0.tar.gz
3.5M 3月  24 15:20 refdata-cellranger-vdj-GRCm38-alts-ensembl-5.0.0.tar.gz

大家作为初学者,可以一次性下载最新版即可。这个步骤需要的计算资源比较大,所以我们一次性跑完结果给大家哈。

交流群

因为这个Cell Discovery 的文章 :《Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma》,非常贴心的整理了其全套单细胞多组学下游分析R语言代码给大家,在:GitHub (https://github.com/Dragonlongzhilin/RenalTumor).

我下载并且解压看了看,还是有很多可取之处,所以组建交流群号召大家一起解读一下这些代码,而且我们 提供这个文章附带的PRJNA768891数据集的上游分析结果给大家哈。

就是你不做单细胞多组学,打开这套代码也可以观摩一下里面的自定义函数技巧:

    41 Combined.P.FC.R
     105 Dot.plot.R
      12 Filter.gene.R
      43 IDConvert.R
     125 Integrate.scRNA.scATAC.R
      91 Plot_colorPaletters.R
     294 analysis.diff.survival.TCGA.R
      40 doubletDetect.R
      31 plot.violin.R
      29 ratio.plot.R
      18 variableFeatureSelection.R

因为单细胞转录组我们已经有了大量教程(4个系列两百多个笔记),大家很容易得到文章里面的降维聚类分群和生物学命名,如下所示:

降维聚类分群和生物学命名

可以看到主要是5个淋巴系免疫亚群:

  • CD4+ (CD4, IL7R, CD3D, CD3E)
  • CD8+ T cells (CD8A, CD8B, CD3D, CD3E)
  • Treg (FOXP3, IL2RA)
  • natural killer (NK)/natural killer T (NKT) cells (KLRD1, GNLY)
  • B cells (MS4A1/CD20, CD79A)

以及5个髓系细胞

  • macrophages (CSF1R, CD68, CD163),
  • monocytes (S100A12, FCGR3A/CD16),
  • mast cells (TPSAB1, KIT)
  • Dendritic cell
  • Neutrophil

其实就是我们一直确定的肿瘤单细胞降维聚类分群规则啦,第一层次分群也是肿瘤上皮细胞,基质细胞(内皮,成纤维等),免疫细胞(淋巴系的T, NK 和B,髓系的巨噬和单核)。

所以本次交流群我们会重点解读单细胞ATAC-seq的代码哦,如下所示:

     208 1.mergeData.R
      79 2.cluster.R
     118 3.1.integrate.scATAC.scRNA3000.R
     189 3.2.AssignCellType.R
     541 4.1.callPeak&DAR.R
     213 4.2.peakAnnotation.genomicLocation.R
      70 4.3.peak.annotated.geneHancer.R
     138 5.1.motif.enrichment.R
     297 5.2.motif.analysis.R 
      39 5.3.2.drug.plot.R
     124 6.1.cis-coassessibility.R
     204 6.2.ccans.annotated.genomicLocation.R
     122 7.1.All.TF.target.R
     321 7.2.Tumor..TFs.regulatoryNetwork.R
     480 7.Tumor.TFs.regulatoryNetwork.R
     552 8.1.Immune.CD8T.R
     536 8.1.Immune.CD8T.TF.target.R
     507 8.2.Immune.Macrophage.R
     525 8.2.Immune.Macrophage.TF.target.R
      86 Endothelial.R
     814 ExtraDataAnalysis.R
      76 NK.analysis.R

尤其是代码里面的scATAC和scRNA数据的整合,文献里面的展示的很漂亮:

scATAC和scRNA数据的整合

还等什么呢?赶快扫码入群吧!

入群方式

同样的,本次交流群并没有公开课,就是一个简单的微信交流群哦!群聊组建费用18.8元,一个简单的门槛隔绝那些不怀好意的广告营销号! 前200名可以直接扫描(仍然需要18.8)群聊二维码进群,满200人后我们会统一收款!(每个人都是18.8 元,如果你不同意这个象征性收费,请不要进群哈!)

目前前面的200人已经满了,剩余的小伙伴如果需要进群,就需要我们生信技能树的官方拉群小助手帮忙拉群哦!(名额有限,先到先得!

这个时候请直接付款28元给小助手,就可以进群,或者你转发此推文到朋友圈然后截图给小助手,就可以仍然以18.8元进群!

一个简单的门槛,隔绝那些营销号!我们也会在群里分享关于这个文章的单细胞数据分析分析代码的理解,仅此而已,考虑清楚哦! 

长按识别二维码


烦请备注姓名学校单位信息

写在文末

我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。