ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
122 stars 30 forks source link

挖掘单细胞数据证明你的基因的重要性 #2637

Closed ixxmu closed 2 years ago

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/psjc_UwMRB2WbNHonHkTAg

github-actions[bot] commented 2 years ago

挖掘单细胞数据证明你的基因的重要性 by 生信技能树

前面我们的TCGA数据挖掘小作业,就是:你研究的基因凭什么重要(这才是数据挖掘的用武之地),很容易让大家去说明某个基因是否表达量失调或者是否有临床生存意义。

而且,确实越来越多的文章发表都会用到这个小技巧, 比如2021 发表在《*J Clin Invest.*》杂志的文章:《Chitinase-3-like 1 protein complexes modulate macrophage- mediated immune suppression in glioblastoma》,就是如此,研究者也是分析了  The Cancer Genome Atlas (TCGA) GBM 队列的数据 ,得到它的表达量失调情况以及它的预后情况 :

  • CHI3L1 is highly expressed in tumors versus nontumor tissues and mesenchymal versus pro- neural and classical subtypes
  • CHI3L1的高表达量是跟PTEN deletions/mutations, PI3K/ AKT/mTOR signaling activation, and poor outcome in patients with isocitrate dehydrogenase WT (IDH-WT) GBM  相关的

如下所示:

异常高表达

以及:

有生存意义

这样的分析确实比较好的说明了这个CHI3L1基因在GBM的重要性,但是现在是单细胞的天下,我们其实可以更进一步,结合公共的单细胞数据很容易通过单细胞数据挖掘来说明这个CHI3L1基因在GBM的异常高表达的原因,比如是恶性肿瘤细胞的高表达。

这个《*J Clin Invest.*》杂志的文章的研究者们也的确下载了 Cell Rep杂志 2017的文章:《Single-Cell RNA-Seq Analysis of Infiltrating Neoplastic Cells at the Migrating Front of Human Glioblastoma》,数据集是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE84465 ,因为是比较早期的单细胞数据所以那个时候并不是10X技术,这个数据集三千多个细胞的表达量矩阵是一个文件供下载;

GSE84465_GBM_All_data.csv.gz 19.6 Mb

单个表达量矩阵文件也可以很容易读取后,走常规的降维聚类分群流程,得到文章里面的分类后可视化自己感兴趣的基因的表达量 :

CHI3L1在恶性肿瘤细胞高表达

左边的降维聚类分群和生物学命名,大家可以参考参考前面的例子:人人都能学会的单细胞聚类分群注释  , 这里我就不再赘述,也可以看基础10讲:

右边把具体的某个基因可视化在降维后的umap图上面就一个很简单的 FeaturePlot 即可,参考前面的例子:各个单细胞亚群的差异基因数量投射到umap图

学徒作业

下载并且读取  这个 19.6 Mb的文件:GSE84465_GBM_All_data.csv.gz,走标准的降维聚类分群,并且给出来合理的命名,在:两个神经退行性疾病的单细胞核转录组队列的细胞亚群及其标记基因的比较,我列出来了一些大脑的单细胞亚群的特异性的基因:

astrocytes = c("AQP4""ADGRV1""GPC5""RYR3"
  endothelial = c("CLDN5""ABCB1""EBF1"
  excitatory = c("CAMK2A""CBLN2""LDB2"
  inhibitory = c("GAD1""LHFPL3""PCDH15"
  microglia = c("C3""LRMDA""DOCK8"
  oligodendrocytes = c("MBP""PLP1""ST18"
  OPC='Tnr,Igsf21,Neu4,Gpr17'
  Ependymal='Cfap126,Fam183b,Tmem212,pifo,Tekt1,Dnah12'
  pericyte=c(  'DCN''LUM',  'GSN' ,'FGF7','MME''ACTA2','RGS5')
# 下面是4种神经细胞
# excitatory (SLC17A6),  
# inhibitory (GAD2), 
# GABAergic (GAD2/GRIK1), 
# dopaminergic neurons(TH)

足够大家给出来生物学名字啦。

当然了,如果你感兴趣这样的单细胞分析但是又是绝对的0基础,之前我们推送过 两天培训课程费用为299元/人(含课程回放及课件资料)(线上线下同等价格)(8月25和26两个白天,朝九晚五授课)适合小白入门哈,欢迎加入哦!大概率上会适合你哦!

写在文末

我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。