听说你的拟时序图跑的像蜈蚣

听说你的拟时序图跑的像蜈蚣 by 生信技能树

几年前的学徒重新找到了我，想重新开启单细胞数据分析的学习，所以我安排了一个简单的公共数据集，就2个分组，而且是肿瘤免疫相关的。

文章是：《Defining the emergence of myeloid-derived suppressor cells in breast cancer using single-cell transcriptomics》，数据集是：GSE139125

但是学徒好不容易学会了降维聚类分群后却在拟时序上面卡壳了：

在拟时序上面卡壳了

我看了看学徒发给我的PPT，确实这个拟时序图跑的像蜈蚣：

拟时序图跑的像蜈蚣

因为这个学徒比较优秀，所以我没有过多指点，解决是告诉她需要在在reduceDimension的时候去除了样本影响，然后她自己就找到了residualModelFormulaStr参数，并且成功解决了这个问题。

前面的教程：拟时序分析就是差异分析的细节剖析，我们展现了一个表达量矩阵如何去走Monocle2分析，通常我们的表达量矩阵在seurat对象里面，首先导出，然后构建Monocle2对象，过滤细胞，选择基因，然后降维的时候选择默认DDRTree算法即可。但是我的教程没有考虑到大家各自实战时候可能遇到的困难，比如这个样本影响。

下面我们一起来看看学徒的解决方案

正常情况下，我给大家的代码是：

###-----------4.推断轨迹，并按照拟时序给细胞排序
cds <- reduceDimension(cds, 
                       max_components = 2, 
                       num_dim = 6, 
                       reduction_method = 'DDRTree', 
                       verbose = F) #是否打印进度条
cds <- orderCells(cds) #起点是包含WT最多的分支

#简单绘图
###-------1.拟时图根据state着色
plot_cell_trajectory(cds, color_by = "State")

学徒做的第一个尝试是改变dim的个数，但是拟时序的图中分支依然非常多。实际上，num_dim的取值我尝试了2,3,10,20,30,50这几个，都没有减少杂乱的分支。

接着尝试改变样本的影响，检索到了residualModelFormulaStr参数：A model formula string specify effects you want to exclude when testing for cell type dependent expression。简而言之就是减少其他因素影响，比如不同样本，不同批次。

代码如下所示：

cds <- reduceDimension(cds, 
                       max_components = 2, 
                       num_dim = 6, 
                       reduction_method = 'DDRTree', 
                       residualModelFormulaStr = "~orig.ident", #去除样本影响
                       verbose = F)
cds <- orderCells(cds) #起点是包含WT最多的分支

#简单绘图
###-------1.拟时图根据state着色
plot_cell_trajectory(cds, color_by = "State")

如下所示：

拟时序的图中分支减少了很多

可以看到拟时序的图中分支减少了很多，跟原文非常接近了。样本的影响为什么会这么大呢？

在这篇文献中，作者一开始使用了seurat的CCA合并了WT和PYMT这两个样本的数据，而且他这里的拟时序分析是想得到一个WT和PYMT都适用的结果，所以必然要排除样本因素引起的干扰。

其实github上有人提问了如何控制monocle分支的问题，但是目前并没有人回答。https://github.com/cole-trapnell-lab/monocle-release/issues/377

今晚九点直播分享这个文章

熟悉我们《单细胞天地》公众号团队的小伙伴都知道我们有一个长期的单细胞学徒培养腾讯会议，每天晚上九点。点击链接入会，或添加至会议列表：https://meeting.tencent.com/dm/EWBbxqqpD6Fa

腾讯会议：507-1242-3763
会议密码：2022

持续两百次，欢迎保留这个链接，随时参与。原则上每周至少五次单细胞单细胞，但是最近学徒不够用了，导致我们的两百次目标有点遥遥无期。

但是今晚，这个学徒会分享这个文献，《Defining the emergence of myeloid-derived suppressor cells in breast cancer using single-cell transcriptomics》，数据集是：GSE139125

大家也可以自己先处理它，跟学徒对比，腾讯会议直播互动交流提问。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI，多一点数据认知，让他们的科研上一个台阶：

数据挖掘（GEO,TCGA,单细胞）2022年暑期班（收官之作），快速了解一些生物信息学应用图表
生信入门课-2022年暑期班（收官之作），你的生物信息学第一课

ixxmu / mp_duty