单细胞数据挖掘比公共数据集原始文献发表更早是一种什么样的体验

单细胞数据挖掘比公共数据集原始文献发表更早是一种什么样的体验 by 生信技能树

如果你搜索它可以发现这个GSE130000数据集其实早在2020年8月21日就公开了，而且我们的学徒还拿它练习过：

GSE130000 - GEO Accession viewer 
2020年8月21日 — Series GSE130000 ; Summary, To understand the recurrence of ovarian cancer, we profiled 13369 single cells from 8 ovarian cancer samples,

进入GSE130000数据集主页：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE130000

可以看到其对应的文献是：Single-cell RNA-seq recognized the initiator of epithelial ovarian cancer recurrence. Oncogene 2022 Feb;41(6):895-906. PMID: 34992217 ：就是新鲜出炉啦，再早几天都查不到它信息。

该文章走的也是降维聚类分群，以及细分亚群的思路。如下所示：

降维聚类分群

可以的看到，第一层次区分成为了6个亚群，如下所示：

eight clusters were of epithelial origin (EPCAM).
cancer-associated fibroblasts (CAFs containing two clusters) (THY1)
T cells (CD2)
macrophages (C1QB)
endothelial cells (VWF)
normal ovary tissue (STAR)

可以看到非常符合认知，8个癌症样品所以它们的上皮细胞都是独立成为单细胞亚群，但是其它细胞可以跨越样品差异而聚集成为细胞亚群。

这样的单细胞转录组数据分析的标准降维聚类分群，并且进行生物学注释后的结果。可以参考前面的例子：人人都能学会的单细胞聚类分群注释，我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知，可以看基础10讲：

接下来作者的重心是描述 metastasis tumors ( M1, b: M2) and relapse tumors ( R1, d: R2). 的上皮细胞的拟时序，功能富集，以及细胞通讯情况。

让我们仔细看看该数据集提交人员的信息：

Submission date Apr 17, 2019
Last update date Jan 12, 2022
Contact name Tongtong Kan
E-mail(s) tongtongkan@hotmail.com
Organization name City University of Hong Kong

也就是说早在2019就提交了这个数据集，起码是2018年做的单细胞转录组，那个时候一个样品起码是5万块钱人民币，这8个样品也就是说仅仅是单细胞测序就耗费了40万。这8个病人的单细胞转录组数据都提供表达量矩阵文件的下载：

GSM3729170_P1_dge.txt.gz 7.6 Mb
GSM3729171_P2_dge.txt.gz 6.0 Mb
GSM3729172_P3_dge.txt.gz 7.8 Mb
GSM3729173_P4_dge.txt.gz 6.8 Mb
GSM3729174_M1_dge.txt.gz 2.7 Mb
GSM3729175_M2_dge.txt.gz 5.3 Mb
GSM3729176_R1_dge.txt.gz 12.8 Mb
GSM3729177_R2_dge.txt.gz 7.9 Mb

但是直到2022才发表了它，在 Oncogene 2022 Feb;41(6):895-906. PMID: 34992217 。

有意思的是，我在搜索这个GSE130000数据集的时候发现了一个基于它的单细胞数据挖掘文章，标题是：《Single-Cell RNA-Sequencing Portraying Functional Diversity and Clinical Implications of IFI6 in Ovarian Cancer》，期刊和时间是：Front. Cell Dev. Biol., 25 August 2021 | https://doi.org/10.3389/fcell.2021.677697

确实是非常优秀啊，建议大家都可以下载两个文章对比读一下，非常精彩！

因为这个数据挖掘文章是早于公共数据集原始文献，所以理论上研究者们没办法去参考公共数据集原始文献的分析方法。

也是同样的第一层次降维聚类分群，如下所示：

第一层次降维聚类分群

可以看到，仍然是上皮细胞，成纤维细胞，T细胞和髓系，以及内皮细胞。有意思的是因为这个是数据挖掘，所以作者把常规TCGA数据挖掘的思路也迁移过来了，比如使用estimate 去计算tumor purity, immune score, and stromal score ，这样的肿瘤免疫微环境分析工具我们讲了很多了，目录是：

当然了，作者既然是单细胞数据挖掘，肯定是少不了单细胞肿瘤拷贝数分析，我们早期大量关于使用infercnv来推断肿瘤单细胞转录组数据里面的拷贝数的教程：

再比如转录因子分析，细胞通讯，以及临床模型构建，我这里就不一一赘述啦，再次欢迎大家下载两个文献去对比阅读。

写在文末

我在《生信技能树》，《生信菜鸟团》，《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的，有任何疑问欢迎留言讨论，也可以发邮件给我，详细描述你遇到的困难的前因后果给我，我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助，让你茅塞顿开，或者说你的课题大量使用我的技能，烦请日后在发表自己的成果的时候，加上一个简短的致谢，如下所示：

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所（当然包括中国大陆）的时候，如果有这样的情谊，我会优先见你

ixxmu / mp_duty

单细胞数据挖掘比公共数据集原始文献发表更早是一种什么样的体验 #1850

单细胞数据挖掘比公共数据集原始文献发表更早是一种什么样的体验 by 生信技能树

写在文末