Closed ixxmu closed 1 year ago
那就不分析啊!!!
不开玩笑,只需要你设计实验收集样品花钱在公司测序了即可,数据分享到公开数据库后就可以发表在《 BMC Genomic Data》杂志啦,比如2023年8月7号见刊的《The single-cell transcriptome and chromatin accessibility datasets of peripheral blood mononuclear cells in Chinese holstein cattle》,实验设计蛮简单的:
因为脂多糖(LPS)组成革兰氏阴性细菌的外膜,其暴露可导致牛的局部或全身炎症水平升高,所以本实验设计就是使用脂多糖(LPS)看LPS 作为慢性炎症的关键介质调节免疫应答。
全文没有一个图,但是数据是实打实的公开了,GSE225962,如下所示的样品:
GSM7061075 no LPS, scRNA-seq
GSM7061076 2 h LPS, scRNA-seq
GSM7061077 4 h LPS, scRNA-seq
GSM7061078 8 h LPS, scRNA-seq
GSM7061079 no LPS, scATAC-seq
GSM7061080 2 h LPS, scATAC-seq
GSM7061081 4 h LPS, scATAC-seq
GSM7061082 8 h LPS, scATAC-seq
虽然说给的文件有点奇怪:
GSM7061075_C.scRNAexpression.txt.gz 15.5 Mb
GSM7061076_T1.scRNAexpression.txt.gz 17.8 Mb
GSM7061077_T2.scRNAexpression.txt.gz 15.0 Mb
GSM7061078_T3.scRNAexpression.txt.gz 8.0 Mb
GSM7061079_C.scATACgenes-barcode.matrix.txt.gz 1.2 Mb
GSM7061080_T1.scATACgenes-barcode.matrix.txt.gz 10.5 Mb
GSM7061081_T2.scATACgenes-barcode.matrix.txt.gz 8.7 Mb
GSM7061082_T3.scATACgenes-barcode.matrix.txt.gz 5.4 Mb
单细胞转录组矩阵很容易读取并且降维聚类分群,然后看看随着脂多糖(LPS)处理时间段变化的基因,通路以及细胞亚群,但是单细胞ATAC数据作者给出来的文件应该是不够的,可能是需要去 PRJNA938112 里面下载原始数据后进行处理啦。感兴趣的可以试试看:
同样的,单细胞ATAC-seq也是上下游独立开,走在Linux系统的cellranger-atac软件进行上游分析,然后走R语言里面的下游统计可视化即可。
这里我们拿刚刚发表的范文举例:西湖大学和浙江大学的科研团队合作的,发表于2022年6月的,发表在Cell Discovery 的文章 :《Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma》,链接是:https://www.nature.com/articles/s41421-022-00415-0
是关于 clear cell renal cell carcinoma (ccRCC) 的肿瘤微环境的单细胞多组学,包括:
数据在PRJNA768891,需要自己下载其测序数据,如下所示:
$ ls -lh *gz|cut -d" " -f5-
28G 8月 2 15:14 SRR16213608_S1_L001_R1_001.fastq.gz
28G 8月 2 15:18 SRR16213608_S1_L001_R2_001.fastq.gz
29G 8月 2 15:23 SRR16213609_S1_L001_R1_001.fastq.gz
29G 8月 2 15:27 SRR16213609_S1_L001_R2_001.fastq.gz
42G 8月 2 15:33 SRR16213610_S1_L001_R1_001.fastq.gz
42G 8月 2 15:40 SRR16213610_S1_L001_R2_001.fastq.gz
41G 8月 2 15:46 SRR16213611_S1_L001_R1_001.fastq.gz
34G 8月 2 15:51 SRR16213611_S1_L001_R2_001.fastq.gz
39G 8月 2 15:57 SRR16213612_S1_L001_R1_001.fastq.gz
34G 8月 2 16:02 SRR16213612_S1_L001_R2_001.fastq.gz
44G 8月 2 16:09 SRR16213613_S1_L001_R1_001.fastq.gz
37G 8月 2 16:15 SRR16213613_S1_L001_R2_001.fastq.gz
37G 8月 2 16:21 SRR16213614_S1_L001_R1_001.fastq.gz
33G 8月 2 16:26 SRR16213614_S1_L001_R2_001.fastq.gz
简单的看 PRJNA768891描述信息,可以知道前面的3个是 (scATAC-seq) ,后面的4个是(scRNA-seq) ,需要分开独立走cellranger流程,所以需要自行去cellranger官网注册并且下载软件和数据库文件,我们一直在做单细胞,所以下面的数据库文件是不同时间段下载的不同版本:
34M 3月 1 17:06 aspera-connect-3.7.4.147727-linux-64.tar.gz
972M 3月 1 17:03 cellranger-4.0.0.tar.gz
955M 3月 1 17:03 cellranger-5.0.1.tar.gz
1.1G 3月 1 17:03 cellranger-6.0.0.tar.gz
528M 3月 24 10:50 cellranger-atac-2.1.0.tar.gz
14G 5月 3 2021 refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz
11G 3月 1 17:04 refdata-gex-GRCh38-2020-A.tar.gz
9.9G 3月 1 17:05 refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
9.7G 3月 1 17:06 refdata-gex-mm10-2020-A.tar.gz
3.3M 3月 1 17:03 refdata-cellranger-vdj-GRCh38-alts-ensembl-4.0.0.tar.gz
3.3M 3月 24 15:20 refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0.tar.gz
3.5M 3月 24 15:20 refdata-cellranger-vdj-GRCm38-alts-ensembl-5.0.0.tar.gz
大家作为初学者,可以一次性下载最新版即可。这个步骤需要的计算资源比较大,所以我们一次性跑完结果给大家哈。
因为这个Cell Discovery 的文章 :《Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma》,非常贴心的整理了其全套单细胞多组学下游分析R语言代码给大家,在:GitHub (https://github.com/Dragonlongzhilin/RenalTumor).
我下载并且解压看了看,还是有很多可取之处,所以组建交流群号召大家一起解读一下这些代码,而且我们 提供这个文章附带的PRJNA768891数据集的上游分析结果给大家哈。
就是你不做单细胞多组学,打开这套代码也可以观摩一下里面的自定义函数技巧:
41 Combined.P.FC.R
105 Dot.plot.R
12 Filter.gene.R
43 IDConvert.R
125 Integrate.scRNA.scATAC.R
91 Plot_colorPaletters.R
294 analysis.diff.survival.TCGA.R
40 doubletDetect.R
31 plot.violin.R
29 ratio.plot.R
18 variableFeatureSelection.R
因为单细胞转录组我们已经有了大量教程(4个系列两百多个笔记),大家很容易得到文章里面的降维聚类分群和生物学命名,如下所示:
可以看到主要是5个淋巴系免疫亚群:
以及5个髓系细胞
其实就是我们一直确定的肿瘤单细胞降维聚类分群规则啦,第一层次分群也是肿瘤上皮细胞,基质细胞(内皮,成纤维等),免疫细胞(淋巴系的T, NK 和B,髓系的巨噬和单核)。
所以本次交流群我们会重点解读单细胞ATAC-seq的代码哦,如下所示:
208 1.mergeData.R
79 2.cluster.R
118 3.1.integrate.scATAC.scRNA3000.R
189 3.2.AssignCellType.R
541 4.1.callPeak&DAR.R
213 4.2.peakAnnotation.genomicLocation.R
70 4.3.peak.annotated.geneHancer.R
138 5.1.motif.enrichment.R
297 5.2.motif.analysis.R
39 5.3.2.drug.plot.R
124 6.1.cis-coassessibility.R
204 6.2.ccans.annotated.genomicLocation.R
122 7.1.All.TF.target.R
321 7.2.Tumor..TFs.regulatoryNetwork.R
480 7.Tumor.TFs.regulatoryNetwork.R
552 8.1.Immune.CD8T.R
536 8.1.Immune.CD8T.TF.target.R
507 8.2.Immune.Macrophage.R
525 8.2.Immune.Macrophage.TF.target.R
86 Endothelial.R
814 ExtraDataAnalysis.R
76 NK.analysis.R
尤其是代码里面的scATAC和scRNA数据的整合,文献里面的展示的很漂亮:
https://mp.weixin.qq.com/s/2LSp-z_igcGZql6AyaumMw