Open liuzj039 opened 7 months ago
顺带一提,我个人觉得如果对单细胞领域还没有这么熟悉的话可以尝试看看这篇文章。这篇文章很详细地介绍了Scanpy和Seurat内部实际上发生了什么。 https://www.biorxiv.org/content/10.1101/2024.04.04.588111v2
感谢您的分享!
老师您好,近期通过您的文章和代码初学单细胞分析,收获良多,非常感谢。 有几个关于注释的问题想请教您:
1) 我在尝试使用SCANVI做translabel的时候,试了多个不同的max_epochs参数,包括20,200,1000。发现不同的训练次数对结果有很大的影响,结果几乎完全不同:
注意到您写的labelTransferByScanvi中,默认值为1000,请问此参数该怎么决定?
2)在我的test中(上图),用的refdata是拟南芥根组织的注释。记得您在进行translabel时,只参考了target data 同样来自根组织的transfer结果。请问不同组织的(比如根瘤)注释是不是参考意义不大呢?我发现有些根瘤组织,如上图最右下角的cluster11,用marker基因注释为维管束,通过transfer也对应到了韧皮部和木质部细胞类型。
3)目前我理解为,细胞类型注释应该综合考虑多种方法的结果,包括marker,cluster特异基因的功能,label transfer,以及空转的结果。请问老师,在出现冲突时,这几种方法的权重应该如何权衡呢。注意到您文章中的label transfer一般用来验证其他方法的准确性,是不是一般不以它的结果来作为主要参考呢?
4)您在git上分享了Stereo-seq的流程,输入文件中有一个h5格式的mask文件,此文件没有在CNCB上传数据中找到,冒昧请问这个文件能否下载,用来学习空转的基本流程?
感谢您的指导和帮助!
就第一条而言,我建议去看Loss的变化,确认Loss是否达到了瓶颈; 就第二条而言,Label Transfer实际上和数据整合有点类似,对于基于KNN的方法来说主要都是在另一个数据集中寻找最为相似的细胞类型,所以在跨组织的时候,我们只能说某个Cluster在当前分析参数下和另一个组织中的某个Cluster较为近似,具体是不是同一细胞类型需要进一步确认。 就第三条而言,黄金标准还是实验验证的Marker,尤其是那些发现几乎不受什么外源处理影响的Marker。但是就我个人而言,目前更相信高质量空转数据deconv的结果。 H5文件我正在上传 稍后你可以在NGDC的OMIX数据库获得。
补充说明一下,1000Epoch是一个我认为足够大的数目,你可以写一个coroutine追踪loss下降情况,我没记错的话scANVI并没有内置early stopping,如果你有兴趣也可以利用coroutine实现在loss止步不前的时候early stopping。
努力看了看这个仓库里面的内容。 很感谢对我们的工作感兴趣。如果在重复我们工作过程中有什么问题欢迎在这里提问。 期待共同学习~