Closed ixxmu closed 2 years ago
如果你搜索它可以发现这个GSE130000数据集其实早在2020年8月21日 就公开了,而且我们的学徒还拿它练习过 :
GSE130000 - GEO Accession viewer
2020年8月21日 — Series GSE130000 ; Summary, To understand the recurrence of ovarian cancer, we profiled 13369 single cells from 8 ovarian cancer samples,
进入GSE130000数据集主页:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE130000
可以看到其对应的文献是:Single-cell RNA-seq recognized the initiator of epithelial ovarian cancer recurrence. Oncogene 2022 Feb;41(6):895-906. PMID: 34992217 :就是新鲜出炉啦,再早几天都查不到它信息。
该文章走的也是降维聚类分群,以及细分亚群的思路。如下所示:
可以的看到,第一层次区分成为了6个亚群,如下所示:
可以看到非常符合认知,8个癌症样品所以它们的上皮细胞都是独立成为单细胞亚群,但是其它细胞可以跨越样品差异而聚集成为细胞亚群。
这样的单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
接下来作者的重心是描述 metastasis tumors ( M1, b: M2) and relapse tumors ( R1, d: R2). 的上皮细胞的拟时序,功能富集,以及细胞通讯情况。
让我们仔细看看该数据集 提交人员的信息:
Submission date Apr 17, 2019
Last update date Jan 12, 2022
Contact name Tongtong Kan
E-mail(s) tongtongkan@hotmail.com
Organization name City University of Hong Kong
也就是说早在2019就提交了这个数据集,起码是2018年做的单细胞转录组,那个时候一个样品起码是5万块钱人民币,这8个样品也就是说 仅仅是单细胞测序就耗费了40万。这8个病人 的单细胞转录组数据都提供表达量矩阵文件的下载:
GSM3729170_P1_dge.txt.gz 7.6 Mb
GSM3729171_P2_dge.txt.gz 6.0 Mb
GSM3729172_P3_dge.txt.gz 7.8 Mb
GSM3729173_P4_dge.txt.gz 6.8 Mb
GSM3729174_M1_dge.txt.gz 2.7 Mb
GSM3729175_M2_dge.txt.gz 5.3 Mb
GSM3729176_R1_dge.txt.gz 12.8 Mb
GSM3729177_R2_dge.txt.gz 7.9 Mb
但是直到2022才发表了它, 在 Oncogene 2022 Feb;41(6):895-906. PMID: 34992217 。
有意思的是,我在搜索这个GSE130000数据集的时候发现了一个基于它的单细胞数据挖掘文章,标题是:《Single-Cell RNA-Sequencing Portraying Functional Diversity and Clinical Implications of IFI6 in Ovarian Cancer》,期刊和时间是:Front. Cell Dev. Biol., 25 August 2021 | https://doi.org/10.3389/fcell.2021.677697
确实是非常优秀啊,建议大家都可以下载两个文章对比读一下,非常精彩!
因为这个数据挖掘文章是早于公共数据集原始文献,所以理论上研究者们没办法去参考公共数据集原始文献的分析方法。
也是同样的第一层次降维聚类分群,如下所示:
可以看到,仍然是上皮细胞,成纤维细胞,T细胞和髓系,以及内皮细胞。有意思的是因为这个是数据挖掘,所以作者把常规TCGA数据挖掘的思路也迁移过来了,比如使用estimate 去计算tumor purity, immune score, and stromal score ,这样的肿瘤免疫微环境分析工具我们讲了很多了,目录是:
当然了,作者既然是单细胞数据挖掘,肯定是少不了单细胞肿瘤拷贝数分析,我们早期大量关于使用infercnv来推断肿瘤单细胞转录组数据里面的拷贝数的教程:
再比如转录因子分析,细胞通讯,以及临床模型构建,我这里就不一一赘述啦,再次欢迎大家下载两个文献去对比阅读。
我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com
如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:
We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.
十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你
https://mp.weixin.qq.com/s/zbQbrMDTg0nw9J_inPuL7A