ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
124 stars 30 forks source link

大样品量的传统bulk转录组解决方案 #4514

Closed ixxmu closed 9 months ago

ixxmu commented 9 months ago

https://mp.weixin.qq.com/s/Rv0QDcs5j4ssn5q3w5Cz7Q

ixxmu commented 9 months ago

大样品量的传统bulk转录组解决方案 by 生信技能树

先抛出一个问题给大家:单细胞转录组就一定是比传统的bulk转录组贵吗?

转录组成本问题

传统bulk转录组测序项目大家都很熟悉了,我们的明码标价之转录组常规测序服务(仅需799每个样品)明码标价之普通转录组上游分析 可以帮助大家快速拿到表达量矩阵,而明码标价之转录组下游分析仅需800元 又可以进行最起码的差异分析,富集分析,以及各种各样的可视化。

因为现阶段传统bulk转录组测序项目成为了标准品,无论大家在哪个公司测序都是几百块钱一个样品,简单的3分组的6个样品,就包括了定量和普通差异分析富集分析的服务,因为都是流程化的。随着国产华大基因的测序服务的崛起,以及illumina的更新换代,测序成本一降再降。2021的时候还是:明码标价之转录组常规测序服务(仅需799每个样品) ,到2022就是常规转录组测序加分析仅需549,12个样品起。

  • 价格:¥549/sample(如果需要建库服务每个样品加收50元)

  • 策略及平台:PE150,6G数据量(上下浮动10%),MGIseq2000平台。(如果一定要选择illumina平台加60元)

一些特色增值服务:

  • 1.免费提供基于数据结果的项目再次优化。

  • 2.样本量大于12个客户,免费赠送16小时转录组分析全套视频 (Linux系统操作、R语言绘图、转录组分析)及针对视频的1年服务器练习使用权限。

虽然已经是超级亲民的价格,但是仅限于简单的3分组的6个样品,或者多分组但是十几个样品这样的数据量。一般来说,差异分析流程适用于两两比较,简单的格式,但实际科研中往往不是这样,比如 :GSE116439 数据集:

Drug-induced change in gene expression across NCI-60 cell lines after exposure to 15 anticancer agents for 2, 6 and 24h (cisplatin),详见:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE116439

其中一个细胞系的一种药物的不同浓度不同时间段处理数据如下:

GSM3232817 MDA-MB-231_cisplatin_0nM_24h
GSM3232818 MDA-MB-231_cisplatin_0nM_2h
GSM3232819 MDA-MB-231_cisplatin_0nM_6h
GSM3232820 MDA-MB-231_cisplatin_15000nM_24h
GSM3232821 MDA-MB-231_cisplatin_15000nM_2h
GSM3232822 MDA-MB-231_cisplatin_15000nM_6h
GSM3232823 MDA-MB-231_cisplatin_3000nM_24h
GSM3232824 MDA-MB-231_cisplatin_3000nM_2h
GSM3232825 MDA-MB-231_cisplatin_3000nM_6h

这里面有60个不同细胞系,15种不同的药物,设计了3种不同的浓度梯度,处理后的不同时间段连续取样。如下所示的药物:

15种不同的药物

这么多样品如果是都做转录组,成本就上来了。而且这样的实验也不在少数,经费充足的大课题组总是存在的。

单细胞转录组其实也两个方向

Smart-seq2和10x这两个单细胞技术是现在初学者进入单细胞领域最需要掌握的,它们代表着单细胞的两个全然不同的发展策略。绝大部分的单细胞技术原理介绍会从 单细胞悬浮液制备到测序细节面面俱到,其实并不那么的初学者友好,最近有粉丝在公众号后台留言说他们的博士课程有一个思考题是:简要概述smart-seq2和10x技术的单细胞差异。然后他给大家推荐了一个高度精炼的综述,这个综述于2020年9月发表在 《Experimental & Molecular Medicine》杂志,标题是:《Single-cell sequencing techniques from individual to multiomics analyses》,链接是:https://www.nature.com/articles/s12276-020-00499-2

可以看到这个综述总结了smart-seq2和10x技术的5大差异

  • smart-seq2技术依赖于C1这个仪器,每次都是96个细胞一起测序,每个细胞的测序量这个综述可能是写错了,应该是1M-10M为佳,不太可能是100-1000个M,最重要的是它是整个RNA分子的全长测序,每个细胞都是独立的测序。

  • 但是10X呢,每次可以测好几千的细胞,每个细胞只需要5-10K的reads,而且仅仅是测RNA分子的一段即可,全部的细胞都混合在一起,虽然说有barcode可以区分。

现在比较成熟的10X单细胞转录组每个样品制备后比较理想的说测8000多个细胞,其实就相对于是8000多个转录组样品,只不过是每个样品仅仅是测序了50K的reads,而我们常规的bulk转录组每个样品是20M的转录组,400倍的测序数据量差异。

如果我们想测8000个常规bulk转录组,哪怕是做到单价100块钱,也是80万人民币,不是一般的课题组能承受的。其实这个时候往往是样品更珍贵的了,比如大名鼎鼎的TCGA计划确实是33种癌症好几万的常规bulk转录组但是耗资很可观而且持续十好几年。

因为大家研究的问题不一样,所以很难下结论说单细胞转录组就一定是比传统的bulk转录组贵,而且smart-seq单细胞技术产出的单细胞转录组数据基本上跟传统的bulk转录数据有类似的数据处理流程。

把smart-seq单细胞技术应用到大样品量的传统转录组

如果因为课题需要,必须得做大样品量的传统的bulk转录数据,这个时候可以把smart-seq单细胞技术应用起来,比如数据集:GSE164788,对应的文章是:Machine learning identifies candidates for drug repurposing in Alzheimer's disease. Nat Commun 2021 Feb  , PMID: 33589615,数据集链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE164788

可以看到这个是 764 个样品,做了 80 FDA-approved and clinically tested drugs in neural cell cultures:

GSM5018704 dge1_A01 RNA-seq of ReNcell VM treated with 0.3 uM bx-912
GSM5018705 dge1_A02 RNA-seq of ReNcell VM treated with 10 uM hg-9-91-01
GSM5018706 dge1_A03 RNA-seq of ReNcell VM treated with 0.3 uM pha-665752

并且给出来了的矩阵并不是常规的行是基因列是样品的矩阵 :

GSE164788_deduplicated_counts.csv.gz 32.5 Mb 
GSE164788_normalized_counts.csv.gz 51.6 Mb  

所以我去看了看原文,是 High-throughput profiling using 3′ DGE 技术,使用了 384-well PCR plate;这样的话每个孔的样品都有唯一的well barcodes and unique molecular identifiers (UMIs)  ,这样的话每个384孔板可以混合去测序并且定量,最后表达量矩阵按照每个样品的UMI拆分即可。也就是说,看起来是这个GSE164788是764 个bulk转录数据样品,但是实际上就两次转录组测序即可。

实际上就两次转录组测序即可

那么, 好问题来了,这个技术的商业化如何?


ixxmu commented 9 months ago

这个技术没有被商业化,但是我很看好它。是 High-throughput profiling using 3′ DGE 技术,使用了 384-well PCR plate;这样的话每个孔的样品都有唯一的well barcodes and unique molecular identifiers (UMIs) ,这样的话每个384孔板可以混合去测序并且定量,最后表达量矩阵按照每个样品的UMI拆分即可。也就是说,看起来是这个GSE164788是764 个bulk转录数据样品,但是实际上就两次转录组测序即可。